ClinHallu: un nuevo banco de pruebas para rastrear alucinaciones en modelos multimodales médicos

Los modelos multimodales de gran escala (MLLM) están cada vez más presentes en tareas clínicas como la respuesta a preguntas visuales, la generación de informes o la asistencia en decisiones. Sin embargo, su tendencia a producir respuestas confiadas pero sin base –las llamadas alucinaciones– sigue siendo un obstáculo para su adopción en entornos de alto riesgo. Los benchmarks existentes, como Med‑HALT o CARES, se concentran en validar la respuesta final, sin indicar en qué punto del razonamiento se originó el error. Esto dificulta entender si la falla proviene de una interpretación visual incorrecta, de un recuerdo de conocimiento médico equivocado o de una integración defectuosa de la información.

Para cerrar esa brecha, el equipo liderado por Sicheng Yang y colaboradores de la Universidad de Ciencia y Tecnología de Hong Kong (Guangdong), la Academia DAMO de Alibaba y el Laboratorio Hupan presenta ClinHallu, un conjunto de evaluación que descompone cada caso de VQA médico en tres etapas independientes: reconocimiento visual (V), recuerdo de conocimiento (K) y razonamiento de integración (R). La colección reúne 7 031 instancias validadas, extraídas de cuatro bases de VQA –VQA‑RAD, PathVQA, MedFrameQA y MedXpertQA– y las enriquece con rastros de razonamiento de referencia generados por un modelo de alto rendimiento (Qwen3.5‑Plus) y filtrados mediante un juez LLM que verifica el formato y la consistencia con la respuesta verdadera.

El proceso de diagnóstico funciona de la siguiente manera: el modelo evaluado produce su propio rastro (V̂, K̂, R̂) y una respuesta final â̂. Luego, mediante intervenciones de sustitución de etapas, se sustituyen los componentes generados por los rastros de referencia y se vuelve a ejecutar el razonamiento restante. Reemplazar el paso visual (Rep‑V) permite medir cuánto mejora la exactitud cuando se corrige la percepción de la imagen; reemplazar el conocimiento (Rep‑K) prueba la sensibilidad a la información médica; y sustituir ambos (Rep‑VK) muestra el efecto combinado. Los resultados se expresan como tasas de alucinación por etapa (HV, HK, HR) y ganancias de precisión (ΔAcc). Este esquema revela, por ejemplo, que en VQA‑RAD la alucinación visual supera el 40 % y que corregir esa etapa eleva la precisión en 15.5 puntos, mientras que en MedXpertQA la mayor limitación proviene del conocimiento, con un aumento de 33.4 puntos al sustituir K.

Los experimentos abarcan once MLLM, tanto cerrados (Qwen3‑Flash, Qwen3‑Plus, Gemini‑Flash) como de código abierto (Qwen2.5‑7B, Qwen3‑8B, Lingshu‑7B, MedGemma‑4B, InternVL‑8B, Qwen3‑32B, Qwen3.5‑4B, Qwen3.5‑9B). Las métricas demuestran patrones de falla dependientes del conjunto de datos: VQA‑RAD muestra un cuello de botella visual, MedXpertQA un cuello de botella de conocimiento y PathVQA y MedFrameQA presentan una mezcla más equilibrada. En la mayoría de los casos, la alucinación de razonamiento (HR) resulta la menos frecuente, indicando que los errores críticos se originan antes de la fase de integración.

Además de diagnosticar, ClinHallu se explora como fuente de supervisión. El estudio entrena Qwen3.5‑9B con diferentes variantes de afinado: solo la respuesta final (Ans‑only) y supervisión parcial o total de los rastros (V, K, V+K, V+K+R). La supervisión completa del rastro logra la mayor precisión (83.7 % en VQA‑RAD) y reduce consistentemente las tasas de alucinación en todas las etapas, mientras que la supervisión únicamente del conocimiento muestra ganancias menores y mayor variabilidad. Estos hallazgos sugieren que proporcionar al modelo una guía explícita de cada paso del razonamiento ayuda a evitar la generación de contenido no sustentado.

Para validar la fiabilidad del juez automático, se realizó una evaluación humana sobre un 10 % de la muestra. Los anotadores médicos alcanzaron una concordancia del 96 % en la exactitud de la respuesta y del 90‑92 % en la detección de alucinaciones por etapa, cifras muy próximas a las obtenidas por el juez LLM (acuerdo global de 94 % en respuestas y 90‑92 % en etapas). Esta coincidencia respalda el uso del juez como herramienta de gran escala.

ClinHallu, aunque centrado ahora en VQA, abre la puerta a futuros benchmarks que incluyan generación de informes o escenarios de apoyo clínico más complejos. Su enfoque de diagnóstico por etapas permite a los desarrolladores pinpointar dónde el modelo falla, priorizar correcciones y medir el impacto de intervenciones específicas. Para los ejecutivos del sector salud, la implicación es clara: contar con una herramienta que no solo indique que un modelo es impreciso, sino que explique el origen del error, facilita decisiones de inversión más informadas y reduce el riesgo de desplegar sistemas que puedan comprometer la seguridad del paciente.

Elvyn Peguero