(1)

Wu, C.; Gan, Y.; Xing, J.; Fu, Y. MARPO: A Reflective Policy Optimization for Multi-Agent Reinforcement Learning. AAAI 2026, 40, 29740-29748.