(1)

Lu, S.; Zhang, K.; Chen, T.; Başar, T.; Horesh, L. Decentralized Policy Gradient Descent Ascent for Safe Multi-Agent Reinforcement Learning. AAAI 2021, 35, 8767-8775.