Prueba de atención revela que los LLM pierden foco en tareas largas

Un experimento de Stroop muestra que modelos como GPT‑4o y Claude caen de más del 90 % a menos del 20 % de precisión al aumentar la longitud de la lista de palabras‑color, indicando una debilidad crítica en el control ejecutivo de la IA.

Resultados del experimento

Investigadores liderados por Suketu Patel aplicaron el clásico test de Stroop, que obliga a nombrar el color de la tinta en vez de leer la palabra, a los grandes modelos de lenguaje (LLM) más avanzados: GPT‑4o, Claude 3.5 Sonnet, GPT‑5, Claude Opus 4.1 y Gemini 2.5. En listas de cinco pares palabra‑color, todos los sistemas superaron el 90 % de exactitud, incluso cuando el texto y el color no coincidían. Al duplicar la lista a diez ítems, la precisión de GPT‑4o cayó a 57 %, y con cuarenta ítems descendió a solo 15 %. Claude 3.5 mantuvo rendimiento estable hasta veinte palabras, pero con cuarenta alcanzó 24 % de acierto. Los demás modelos mostraron patrones similares.

Cuando en la misma lista se combinaron ítems coincidentes y conflictivos, la caída fue aún más pronunciada; algunos sistemas registraron casi cero aciertos en los casos conflictivos. Los autores atribuyen la degradación a la incapacidad de los LLM para suprimir la respuesta predeterminada de “leer la palabra”, lo que demuestra una falta de control ejecutivo comparable al de los cerebros humanos.

Implicaciones operativas para América Latina

Auditoría de procesos automatizados: Las empresas que usan LLM para tareas de clasificación, extracción de datos o atención al cliente deben validar que la longitud de la entrada no degrade la precisión. Se recomienda establecer umbrales de longitud y pruebas de regresión periódicas.
Documentación de limitaciones: Los departamentos de IA deben registrar explícitamente la pérdida de rendimiento en escenarios con información extensa o conflictiva, y comunicarlo a usuarios finales y a equipos de cumplimiento.
Gestión de riesgos: En sectores críticos como finanzas, salud o regulaciones gubernamentales, la caída de precisión puede traducirse en decisiones erróneas. Es necesario diseñar flujos de control que reenvíen casos complejos a revisión humana.
Infraestructura de ejecución: Los modelos que requieren más pasos de atención para mantener el foco consumen mayor memoria y tiempo de cómputo. Las organizaciones deben dimensionar su capacidad de cómputo considerando picos de carga cuando se procesan entradas largas.
Costos operativos: Dado que la precisión disminuye con la longitud, las empresas pueden enfrentar mayores costos de retrabajo o de validación manual. Evaluar el balance costo‑beneficio al elegir entre usar LLM y soluciones tradicionales es esencial.

Para los ejecutivos latinoamericanos, la lección es clara: la sofisticación de los LLM no implica que sean aptos para todas las tareas sin supervisión. Implementar pruebas de estrés basadas en el test de Stroop permite identificar cuellos de botella antes de desplegar soluciones a gran escala. Además, la adaptación de políticas de gobernanza de IA que incluyan métricas de atención y control ejecutivo reducirá la exposición a fallas operativas y protegerá la reputación corporativa.

En conclusión, aunque los LLM continúan avanzando, su vulnerabilidad frente a distracciones y secuencias extensas constituye un factor de riesgo que debe gestionarse con pruebas estructuradas, documentación clara y procesos de mitigación adecuados.