[1]

C. Wu, Y. Gan, J. Xing, and Y. Fu, “MARPO: A Reflective Policy Optimization for Multi-Agent Reinforcement Learning”, AAAI, vol. 40, no. 35, pp. 29740-29748, Mar. 2026.