Wu, C., Gan, Y., Xing, J., & Fu, Y. (2026). MARPO: A Reflective Policy Optimization for Multi-Agent Reinforcement Learning. Proceedings of the AAAI Conference on Artificial Intelligence, 40(35), 29740-29748. https://doi.org/10.1609/aaai.v40i35.40219