Kuang, Y., Lu, M., Wang, J., Zhou, Q., Li, B., & Li, H. (2022). Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization. Proceedings of the AAAI Conference on Artificial Intelligence, 36(7), 7247-7254. https://doi.org/10.1609/aaai.v36i7.20686