(1)

Xu, H.; Zhan, X.; Zhu, X. Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning. AAAI 2022, 36, 8753-8760.