RA‑RFT: entrenamiento por refuerzo con recuperación de analogías para razonamiento matemático
Un nuevo marco, Retrieval‑Augmented Reinforcement Fine‑Tuning (RA‑RFT), enseña a los LLM a razonar por analogía usando recuperaciones que priorizan la utilidad del razonamiento sobre la similitud superficial, mejorando notablemente en pruebas como AIME 2025.