Bai Q, Mondal WU, Aggarwal V. Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes. AAAI [Internet]. 2024 Mar. 24 [cited 2026 Jul. 24];38(10):10980-8. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/28973