Investigación Ensayos de estudiantes: ¿creatividad real del IA o de la mente humana?
Un estudio de Georgetown comparó 2.200 ensayos escritos por humanos y por GPT‑4, revelando que la IA supera a los estudiantes en ideas individuales pero pierde diversidad cuando se agrupan los textos.
Investigadores de la Universidad de Georgetown publicaron en 2025 en Computers in Human Behavior: Artificial Humans un experimento que mide la capacidad creativa de los estudiantes que usan herramientas de IA frente a quienes no la utilizan. El objetivo era responder a la preocupación de que los grandes modelos de lenguaje (LLM) pudieran homogeneizar el pensamiento al generar contenido similar para miles de usuarios.
El equipo tomó 1.100 ensayos de ingreso universitario escritos a mano y 1.100 producidos por la versión de ChatGPT basada en GPT‑4. Cada texto fue evaluado mediante una métrica propia llamada "tasa de crecimiento de la diversidad", que cuantifica cuántas ideas nuevas se añaden al conjunto a medida que se incorpora cada ensayo adicional.
En el primer nivel de análisis, es decir, la diversidad aportada por cada ensayo individual, los resultados fueron mixtos. Con la configuración por defecto de GPT‑4, la diversidad de los ensayos generados quedaba por debajo de la de los humanos. Cuando los investigadores ajustaron parámetros para fomentar la creatividad –por ejemplo, aumentando la temperatura del modelo y solicitando respuestas más elaboradas– la IA logró superar la diversidad individual de los estudiantes.
Sin embargo, el panorama cambió al observar la agregación de múltiples textos. Cuando se juntaron los ensayos en lotes, la tasa de crecimiento de la diversidad de los humanos resultó ser de dos a ocho veces mayor que la de la IA con configuración estándar. En otras palabras, aunque una sola pieza escrita por la máquina pueda contener ideas novedosas, el conjunto de escritos humanos sigue generando una gama mucho más amplia de perspectivas.
Para intentar cerrar esa brecha, los autores aplicaron a la IA una técnica de "cadena de pensamiento" (Chain‑of‑Thought), que obliga al modelo a razonar paso a paso antes de producir la respuesta final. Esa estrategia incrementó la diversidad colectiva de los textos generados en más de cuatro veces respecto a la configuración básica, pero aun así los ensayos humanos mantuvieron una ventaja aproximada del 200 % en la tasa de crecimiento de la diversidad.
Los investigadores explican que la razón detrás de la homogeneidad de la IA radica en su proceso de generación: los LLM predicen la palabra más probable según los patrones aprendidos de enormes volúmenes de datos, lo que tiende a reproducir construcciones lingüísticas seguras y medianamente aceptadas. Además, los filtros de seguridad basados en retroalimentación humana limitan la salida de contenido considerado arriesgado o controvertido, reforzando una escritura que resulta "educada" pero poco atrevida.
El estudio no descarta que futuras versiones de los modelos pudieran reducir este efecto de homogenización, pero subraya la necesidad de medir continuamente el impacto de la IA en la diversidad creativa y de diseñar métricas que alerten sobre posibles riesgos de uniformidad.
Para los ejecutivos que consideran integrar herramientas de generación de texto en sus procesos de innovación, el hallazgo sugiere que la IA puede ser útil para inspirar ideas puntuales, pero confiar en ella como única fuente de creatividad grupal podría limitar la variedad de soluciones. Mantener la aportación humana en etapas de brainstorming colectivo sigue siendo clave para evitar un panorama de ideas demasiado similar y para preservar la capacidad de generar propuestas verdaderamente disruptivas.