Xu, H., X. Zhan, and X. Zhu. “Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, no. 8, June 2022, pp. 8753-60, doi:10.1609/aaai.v36i8.20855.