Bai, Qinbo, Washim Uddin Mondal, and Vaneet Aggarwal. 2024. “Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes”. Proceedings of the AAAI Conference on Artificial Intelligence 38 (10):10980-88. https://doi.org/10.1609/aaai.v38i10.28973.