Investigación Un Transformer entrenado con DRL resuelve problemas de planificación abiertos
Un modelo basado en Transformer y aprendizaje por refuerzo profundo genera horarios factibles para el Open Shop Scheduling, con brechas de 12‑15% frente a límites inferiores en instancias de hasta 100×100.
Los problemas de planificación tipo Open Shop (OSSP) aparecen en fábricas, hospitales y centros de servicios donde cada trabajo debe pasar por todas las máquinas, pero el orden es libre. A medida que aumentan los números de trabajos y equipos, los métodos exactos se vuelven impracticables y los heurísticos tradicionales requieren ajustes finos para mantener la calidad.
Un equipo de investigadores liderado por Faezeh Ardali, Mwembezi A. Nyelele y Gerald M. Knapp propone una alternativa basada en aprendizaje automático: un modelo Transformer entrenado mediante Deep Reinforcement Learning (DRL). La arquitectura emplea un codificador‑decodificador con atención multicanal y solo necesita la matriz de tiempos de procesamiento como entrada. El entrenamiento se llevó a cabo con los clásicos conjuntos de referencia de Taillard (dimensiones 4×4, 5×5, 7×7 y 10×10).
Los resultados en esas instancias pequeñas muestran que los horarios generados por el modelo tienen makespans entre el 15 % y el 30 % por encima de los valores mejores conocidos, lo que ya es competitivo frente a heurísticos bien afinados. Lo más relevante es la prueba de escalabilidad: sin volver a entrenar, el mismo modelo se aplicó a problemas aleatorios de 40×40, 60×60, 80×80 y 100×100.
En esta fase de gran escala, el Transformer alcanzó brechas promedio de 12,89 % a 15,12 % respecto a un límite inferior estándar. Cuando se comparó con heurísticas de despacho clásicas —Shortest Processing Time (SPT), Longest Processing Time (LPT), Most Workload per Machine (MWKR) y Earliest Start Time (EST)— el modelo se mantuvo cercano a EST, superando notablemente a SPT y LPT y ofreciendo mejoras sustanciales frente a MWKR.
La clave de esta generalización radica en la capacidad del Transformer para captar relaciones estructurales entre trabajos y máquinas a partir de la única información de tiempos, sin requerir características adicionales ni ajustes de parámetros para cada nuevo tamaño de problema. Además, la política aprendida por DRL permite generar horarios factibles en tiempo lineal respecto al número de operaciones, lo que abre la puerta a su uso en entornos donde la rapidez de respuesta es crítica.
Desde la perspectiva empresarial, estas conclusiones sugieren una vía para reducir la dependencia de enfoques heurísticos que demandan expertos para calibrar reglas y parámetros. Un modelo entrenado en conjuntos pequeños puede desplegarse en plantas de producción o centros de atención con cientos de máquinas, ofreciendo soluciones rápidas y suficientemente cercanas a los mejores límites conocidos. La reducción del esfuerzo de configuración y la posibilidad de actualizar el modelo con datos reales de producción podrían traducirse en menores costos operativos y una mayor flexibilidad frente a cambios en la demanda o en la disponibilidad de recursos.
Sin embargo, la brecha del 12‑15 % indica que, aunque la solución es viable, todavía no alcanza la optimalidad de los mejores algoritmos exactos para casos críticos. Empresas que manejan procesos de alta complejidad o con requisitos de tiempo extremadamente estrechos deberán evaluar si la ventaja en velocidad compensa la pérdida de eficiencia.
En definitiva, el estudio abre un nuevo capítulo en la aplicación de Transformers y DRL a problemas de planificación industrial, mostrando que una política entrenada en escenarios reducidos puede escalar sin perder consistencia. El siguiente paso natural será probar el modelo con datos de producción reales, integrar restricciones adicionales (como disponibilidad de personal o mantenimiento) y comparar su desempeño frente a metodologías híbridas que combinan heurísticas y aprendizaje.
Para los ejecutivos que supervisan la cadena de suministro, la lección es clara: la inteligencia artificial basada en Transformers ya no es un experimento académico; puede convertirse en una herramienta operativa que simplifique la planificación, reduzca la carga de ajuste manual y mantenga los costos bajo control mientras la empresa crece.