Kuang Y, Lu M, Wang J, Zhou Q, Li B, Li H. Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization. AAAI [Internet]. 2022Jun.28 [cited 2024Apr.25];36(7):7247-54. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/20686