Bai, Q., Mondal, W. U., & Aggarwal, V. (2024). Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes. Proceedings of the AAAI Conference on Artificial Intelligence, 38(10), 10980–10988. https://doi.org/10.1609/aaai.v38i10.28973