Guo, Xin, Anran Hu, and Junzi Zhang. 2022. “Theoretical Guarantees of Fictitious Discount Algorithms for Episodic Reinforcement Learning and Global Convergence of Policy Gradient Methods”. Proceedings of the AAAI Conference on Artificial Intelligence 36 (6):6774-82. https://doi.org/10.1609/aaai.v36i6.20633.