Bai, Q., Mondal, W. U. and Aggarwal, V. (2024) “Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes”, Proceedings of the AAAI Conference on Artificial Intelligence, 38(10), pp. 10980–10988. doi: 10.1609/aaai.v38i10.28973.