LifeSciBench: nuevo estándar para evaluar IA en investigación biomédica

LifeSciBench nace como respuesta a la falta de pruebas que reflejen la complejidad de la investigación en ciencias de la vida. Los sistemas de IA actuales se evalúan con preguntas aisladas y respuestas estructuradas, lo que no captura actividades como la interpretación de evidencia incompleta, la conciliación de resultados contradictorios o la planificación de experimentos bajo incertidumbre.

El benchmark agrupa 750 ítems elaborados por 173 científicos con formación doctoral y experiencia en desarrollo de fármacos. Cada tarea representa una solicitud que un investigador podría hacer a un colaborador: incluye un enunciado científico, archivos adjuntos (figuras, tablas, secuencias, estructuras químicas) y una respuesta libre. Los expertos definieron siete flujos de trabajo recurrentes: manejo de evidencia, análisis, diseño y optimización, razonamiento científico, validación y operaciones, traducción y comunicación científica.

Los criterios de evaluación son rubricas detalladas que desglosan la respuesta esperada en hasta 25 elementos por tarea, alcanzando un total de 19 020 criterios. Estas rubricas no solo verifican la exactitud del resultado final, sino también la justificación, los matices y la presentación que un científico esperaría. El 79 % de las tareas requieren varios pasos de razonamiento, con un promedio de cuatro decisiones por ítem, y el 53 % obliga al modelo a interpretar al menos un artefacto adicional al texto.

El proceso de creación incluyó revisiones continuas: cada tarea pasó por un promedio de seis ciclos automatizados y al menos dos rondas de revisión por pares, logrando un acuerdo superior al 90 % entre revisores. La validación independiente contó con 453 expertos, 97 % con doctorado y una media de 12 años de experiencia, alcanzando una concordancia superior al 96 % en los criterios de calidad del benchmark.

Resultados preliminares muestran que los modelos de última generación, como GPT‑Rosalind, superan a GPT‑5.5 en varias áreas. En comunicación científica el pase sube del 56.3 % al 71.1 %, y en traducción de evidencia preclínica a contexto clínico del 36.8 % al 57.7 %. Sin embargo, persisten debilidades: tareas con artefactos complejos reducen la tasa de éxito de 45.1 % (texto puro) a 28.1 % (con artefactos), y los ítems que demandan respuestas exactas de secuencias o estructuras apenas superan el 15 % de pase.

Para una organización que considera integrar IA en sus flujos de I+D, LifeSciBench ofrece una referencia concreta de capacidad operativa. Los rubros que aparecen con mayor puntuación indican zonas donde la IA ya aporta valor inmediato, como la síntesis de evidencia y la generación de informes dirigidos a expertos. Los dominios con bajo rendimiento señalan áreas que requerirán mayor inversión en entrenamiento de modelos o en herramientas de extracción de datos de figuras y archivos biológicos.

En la práctica, adoptar un modelo que alcanza al menos el 30 % de pase en los siete flujos implica validar que pueda apoyar decisiones de diseño experimental y análisis de datos sin comprometer la exactitud requerida para la producción de compuestos. Además, la necesidad de manejar artefactos sugiere que la infraestructura debe incluir pipelines de pre‑procesamiento de imágenes y secuencias para alimentar al modelo.

El siguiente paso para la industria será ligar los resultados de LifeSciBench con estudios de despliegue real, midiendo si la mejora en los puntajes se traduce en una reducción del tiempo de desarrollo o en decisiones de proyecto más informadas. Mientras tanto, LifeSciBench representa la herramienta más completa disponible para evaluar si la IA está preparada para el entorno de investigación biotecnológica.

Henry González

También te puede interesar

Eco‑digitalismo: la ilusión verde que la IA está vendiendo

Microsoft controla la IA generativa en China: ¿beneficio o riesgo para la soberanía?

Soberanía digital europea: por qué OVHcloud debe liderar la IA local