[1]

H. Xu, X. Zhan, and X. Zhu, “Constraints Penalized Q-learning for Safe Offline Reinforcement Learning”, AAAI, vol. 36, no. 8, pp. 8753-8760, Jun. 2022.