Kuang, Yufei, Miao Lu, Jie Wang, Qi Zhou, Bin Li, and Houqiang Li. “Learning Robust Policy Against Disturbance in Transition Dynamics via State-Conservative Policy Optimization”. Proceedings of the AAAI Conference on Artificial Intelligence 36, no. 7 (June 28, 2022): 7247-7254. Accessed April 19, 2024. https://ojs.aaai.org/index.php/AAAI/article/view/20686.