Coordinación de preferencias para mejorar el aprendizaje multi‑objetivo en equipos de IA

Problema y enfoque

Los sistemas donde varios agentes deben cumplir simultáneamente metas como eficiencia, seguridad y equidad presentan conflictos no solo entre los objetivos, sino también entre los propios agentes, que poseen distintas observaciones y roles. En entornos como la gestión de semáforos o la asignación de recursos naturales, usar una única ponderación de los objetivos para todos los agentes genera competencia en los mismos ejes de recompensa y reduce la efectividad del equipo.

Para superar esta limitación, los autores proponen Preference Coordinated Multi‑agent Policy Optimization (PCMA). El método introduce una variable latente de preferencia para cada agente, que se muestra como un vector sobre la simplex de objetivos. Cada agente aprende una política condicionada a su muestra de preferencia, mientras un planificador estocástico ajusta esas preferencias de acuerdo con la mejora del equipo. El entrenamiento sigue el esquema de centralización de entrenamiento y ejecución descentralizada (CTDE), usando críticos centralizados para la recompensa escasa del equipo y críticos locales para los vectores de utilidad individual.

Fundamentación teórica

Se modela el problema como un juego de equilibrio óptimo de equipo: el objetivo es encontrar un perfil de preferencias que, al inducir un equilibrio de Nash condicionada a esas preferencias, maximice la recompensa colectiva. El análisis muestra que, bajo la condición de alineación entre la dirección de mejora de cada agente y su preferencia, la diversidad de preferencias contribuye a una mejora de primer orden del objetivo de equipo. Además, se prueba que los equilibrios correspondientes a perfiles de preferencias cercanos varían de forma continua, lo que permite que actualizaciones graduales de preferencias sigan una trayectoria estacionaria sin perder estabilidad.

Arquitectura de PCMA

Cada agente dispone de dos componentes clave:

Planificador de preferencias: una red que, a partir de la observación local, genera los parámetros de una distribución Dirichlet. Se muestrean los vectores de preferencia y se regula su diversidad mediante un término que penaliza la colapsación de preferencias.
Actor condicionado: una política PPO que recibe la observación y el vector de preferencia y produce la acción. El actor se entrena con una ventaja que combina la ventaja del equipo (ponderada por la media de preferencias) y la ventaja individual alineada a la preferencia del agente.

El algoritmo alterna recolección de datos, cálculo de ventajas mediante GAE y actualizaciones de críticos, actor y planificador. Los hyperparámetros de regularización de diversidad (λ1) y de balance entre señal de equipo y señal individual (λ2) se ajustan según el dominio.

Resultados experimentales

Se evaluó PCMA en varios entornos cooperativos: tareas de partículas (Cooperative Spread, Safe Predator‑Prey), control de drones (Catch, Escort), locomoción múltiple (MOMAWalker), mapas de StarCraft (3m, 2s3z, 8m) y un escenario de control de intersecciones en CARLA (OpenCDA‑MARL). En la mayoría de los casos, PCMA superó a baselines como MADDPG, IPPO y MAPPO tanto en tasa de éxito como en recompensa media. Por ejemplo, en Cooperative Spread alcanzó una tasa de éxito del 100 % frente al 80 % de MAPPO, y en Safe Predator‑Prey mejoró la recompensa promedio de 2.39 a 2.45. Análisis cualitativo mostró que los agentes especializaron sus prioridades: algunos prefirieron la eficiencia mientras otros se enfocaron en la seguridad, cubriendo de manera más completa el frente de Pareto.

Los estudios de ablación confirmaron que una regularización de diversidad moderada (λ1≈0.1‑0.2) acelera el aprendizaje, mientras valores demasiado altos ralentizan la convergencia. El coefficient λ2 también debe mantenerse bajo para evitar que la señal individual domine al objetivo de equipo. Comparaciones contra versiones que usan preferencias aleatorias (RAND) o idénticas (SAME) demostraron que la coordinación aprendida aporta un beneficio sustancial.

Implicaciones para la práctica empresarial

Para organizaciones que despliegan sistemas multi‑agente –por ejemplo, flotas de vehículos autónomos o plataformas de gestión energética– PCMA ofrece un mecanismo sencillo para alinear distintos sub‑sistemas sin requerir re‑entrenamiento para cada combinación de objetivos. La capacidad de ajustar dinámicamente las preferencias permite adaptar la política a cambios en prioridades operativas (mayor seguridad en horas pico, mayor eficiencia en periodos de baja demanda) con una sola política entrenada. Además, el control de la diversidad de preferencias reduce el riesgo de colisión de objetivos, lo que se traduce en menores costes de fallos y mayor robustez del servicio.

Futuro inmediato

Si bien los experimentos se centraron en entornos controlados, la extensión a sistemas de tráfico real o a plataformas de comercio electrónico con decisiones simultáneas de precio y disponibilidad parece factible. La principal barrera será la obtención de recompensas vectoriales precisas en producción; sin embargo, la arquitectura de PCMA está preparada para incorporar señales de utilidad indirectas mediante aprendizaje por imitación o retroalimentación humana.