Un nuevo marco para VLMs que rastrea cada paso y corrige sus fallos

CaVe‑VLM‑CoT propone un ciclo de cinco fases que extrae, recupera, resuelve, cita e verifica, logrando 87 % de precisión en ScienceQA y reduciendo alucinaciones en modelos visión‑texto.

Un nuevo marco para VLMs que rastrea cada paso y corrige sus fallos

Los modelos que combinan visión y lenguaje siguen generando respuestas que suenan plausibles pero que no se corresponden con la imagen de partida. Ese desalineamiento, conocido como alucinación, persiste a pesar de los avances en razonamiento tipo "chain‑of‑thought" y en la incorporación de bases de datos externas. El equipo liderado por Sneha Rao, Shaina Raza y Dhanesh Ramachandram plantea una solución estructurada: CaVe‑VLM‑CoT, un marco modular que obliga al modelo a justificar cada afirmación con evidencia recuperada y a volver a consultar la fuente cuando la verificación falla.

El proceso se divide en cinco etapas cerradas. Primero, el Extractor analiza la pregunta y la imagen para identificar los conceptos clave que deben ser respondidos. Luego, el Retriever busca en una colección predefinida fragmentos de texto o datos que puedan sustentar esas ideas. En la fase de Solver, el modelo genera una respuesta combinando la información recuperada con su capacidad de razonamiento. Antes de presentar el resultado, el Citation Injector inserta referencias explícitas a los documentos utilizados, marcando qué parte de la respuesta proviene de cada fuente. Finalmente, el Verifier revisa la respuesta en busca de afirmaciones sin respaldo; si detecta una discrepancia, envía una señal estructurada al Extractor para que reformule la consulta y solicite nueva evidencia.

Este bucle permite que la corrección sea automática y puntual, algo que los métodos previos no lograban: ni los enfoques de razonamiento encadenado garantizan que cada paso esté citado, ni los sistemas de recuperación simples vuelven a buscar cuando una verificación falla. Para medir el desempeño del nuevo marco, los autores diseñaron 23 métricas que cubren la calidad de la recuperación, la precisión de las citas y el nivel de alineación multimodal. Todas esas métricas se agrupan en CaVeScore, un indicador compuesto que pondera exactitud, cobertura de citas, precisión‑recall de referencias y vínculo con la evidencia visual.

Patrocinado Advertisement

En la práctica, CaVe‑VLM‑CoT alcanzó un 87.1 % de exactitud en el benchmark ScienceQA, acompañado de un CaVeScore de 56.6 %. En el conjunto más amplio y heterogéneo MMMU, que incluye 30 materias, el modelo obtuvo 55.2 % de precisión y un CaVeScore de 35.7 %. Estas cifras provienen sin modificar la arquitectura subyacente ni los prompts del modelo, lo que sugiere que la mejora proviene exclusivamente del enfoque de retroalimentación cerrada y de la exigencia de citar cada paso.

Para las organizaciones que ya emplean VLMs en productos de atención al cliente, análisis de contenido visual o generación de informes, el mensaje es claro: integrar un ciclo de verificación y re‑recuperación puede elevar la confiabilidad sin necesidad de invertir en nuevos modelos. Al garantizar que cada dato mencionado tenga una referencia rastreable, se disminuye el riesgo de presentar información errónea a clientes o reguladores. Además, la capacidad de detectar y corregir fallos en tiempo real abre la puerta a sistemas más autónomos, donde la supervisión humana puede centrarse en casos excepcionales en lugar de revisar cada salida.

Sin embargo, el marco todavía depende de la calidad y cobertura de la base de datos utilizada por el Retriever. En dominios con información escasa o altamente especializada, el modelo podría quedar atrapado en un ciclo de re‑búsqueda sin encontrar pruebas sólidas. Asimismo, el proceso de inserción de citas añade latencia, lo que podría ser un obstáculo para aplicaciones que requieren respuestas instantáneas. Las métricas de CaVeScore, aunque exhaustivas, aún no capturan el costo computacional ni la experiencia del usuario final, factores críticos para la adopción comercial.

En resumen, CaVe‑VLM‑CoT muestra que la combinación de razonamiento estructurado, evidencia rastreable y verificación automática puede reducir sustancialmente las alucinaciones en sistemas visión‑texto. Para las empresas, la propuesta abre una ruta clara: reforzar la arquitectura de recuperación y establecer mecanismos de retroalimentación cerrada para que sus VLMs no solo sean inteligentes, sino también responsables con la información que generan.

Elvyn Peguero

Escrito por

Elvyn Peguero

Consultor digital e IA

Consultor de transformación digital e inteligencia artificial con más de 15 años navegando la intersección entre tecnología, gobierno y empresa. Arquitectó el Framework Normativo TIC del Estado Dominicano y ha liderado proyectos de IA aplicada en sectores públicos y privados desde Bewos AI Consulting. Editor para República Dominicana en ITNOW durante seis años, donde desarrolló un ojo clínico para explicar tecnología compleja en lenguaje que cualquier ejecutivo puede entender.

Ver todos sus artículos →