RA‑RFT: entrenamiento por refuerzo con recuperación de analogías para razonamiento matemático

El trabajo de Xiao, Ma y coautores propone RA‑RFT, un proceso post‑entrenamiento que combina recuperación de ejemplos análogos y aprendizaje por refuerzo con recompensas verificables. La motivación surge del hecho de que los sistemas de Retrieval‑Augmented Generation (RAG) habituales ordenan contenidos por similitud léxica o semántica, lo que no garantiza que el ejemplo recuperado facilite la solución del problema actual. Un problema similar a nivel de palabras puede requerir una estrategia distinta, mientras que un problema aparentemente distinto puede compartir el mismo patrón de razonamiento.

RA‑RFT se compone de tres etapas. Primero, mediante "gold‑relevance distillation", un modelo juez (GPT‑4o) evalúa exhaustivamente pares pregunta‑ejemplo y asigna una etiqueta binaria que indica si el trazado de razonamiento del ejemplo es transferible para la pregunta objetivo. Esta supervisión basada en utilidad del razonamiento permite crear un conjunto de anotaciones que no depende de la similitud superficial.

En segundo lugar, se entrena un recuperador denso usando aprendizaje contrastivo sobre esas etiquetas. El objetivo es que el recuperador aprenda a posicionar en la cima de la lista los ejemplos cuya estructura lógica sea más relevante para la consulta, independientemente del vocabulario compartido. Los autores emplean Reason‑ModernColBERT, un modelo de interacción tardía de vectores múltiples, y lo afinan con una temperatura de 0.05 durante tres épocas.

La fase final incorpora los ejemplos recuperados en el bucle de aprendizaje por refuerzo. Para cada problema de entrenamiento, el modelo de política genera varias respuestas condicionadas al contexto recuperado; luego se calcula una recompensa binaria verificando la corrección del resultado final. La política se actualiza mediante GRPO (Group Relative Policy Optimization), pero ahora la distribución de muestreo incluye los ejemplos análogos, lo que mejora la densidad de recompensas y permite al modelo aprender a explotar esas trazas cuando son útiles.

Los experimentos emplean dos variantes de Qwen3 (1.7 B y 4 B) y un corpus de 220 k problemas con trazados generados por Qwen3‑235B‑A22B. Los benchmarks incluyen AIME 2024‑2025, HMMT Febrero 2025 y BrUMO 2025. En el modelo de 1.7 B, RA‑RFT supera a GRPO en 4.7 puntos en AIME 2024, 7.1 en AIME 2025, 1.9 en HMMT y 2.6 en BrUMO. En la versión de 4 B, los incrementos son de 2.8 puntos en AIME 2025 y 5.9 en BrUMO, alcanzando la mejor precisión en tres de los cuatro conjuntos. Las comparaciones contra OPSD, que usa destilación con trazos privilegiados, también favorecen a RA‑RFT pese a que este último se basa solo en recompensas de salida.

Los estudios de ablación demuestran que la ganancia proviene del entrenamiento bajo contexto recuperado, no de la mera presencia del mismo en la fase de inferencia. Cuando se añade un trazado aleatorio al entrenamiento, el rendimiento cae, lo que indica que la calidad del recuperador es esencial. Además, se muestra que diferentes trazados pueden impulsar significativamente la precisión de un mismo problema, evidenciando que la diversidad de estrategias es un activo valioso.

Para las organizaciones que despliegan modelos de lenguaje en tareas de razonamiento complejo, RA‑RFT implica varias decisiones operativas: (1) incorporar un proceso de anotación de relevancia con un modelo de juez, lo que genera un costo puntual pero reutilizable; (2) mantener un recuperador entrenado que pueda servir a múltiples ciclos de entrenamiento o modelos; (3) adaptar la infraestructura de entrenamiento por refuerzo para incluir los contextos recuperados, lo que incrementa ligeramente el uso de memoria y tiempo de cómputo. Sin embargo, el retorno se traduce en modelos que aprenden a reutilizar conocimientos externos, reduciendo la dependencia de la información paramétrica y mejorando la capacidad de generalización a problemas inéditos.

En suma, RA‑RFT muestra que orientar la recuperación por utilidad de razonamiento y cerrar el ciclo con aprendizaje por refuerzo puede elevar sustancialmente el desempeño en razonamiento matemático, abriendo la puerta a aplicaciones similares en dominios donde la analogía estructural es clave.

Henry González