[1]

S. Lu, K. Zhang, T. Chen, T. Başar, and L. Horesh, “Decentralized Policy Gradient Descent Ascent for Safe Multi-Agent Reinforcement Learning”, AAAI, vol. 35, no. 10, pp. 8767–8775, May 2021.