(1)

Kuang, Y.; Lu, M.; Wang, J.; Zhou, Q.; Li, B.; Li, H. Learning Robust Policy Against Disturbance in Transition Dynamics via State-Conservative Policy Optimization. AAAI 2022, 36, 7247-7254.