Anagnostides I, Panageas I, Farina G, Sandholm T. Optimistic Policy Gradient in Multi-Player Markov Games with a Single Controller: Convergence beyond the Minty Property. AAAI [Internet]. 2024 Mar. 24 [cited 2026 May 30];38(9):9451-9. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/28799