Xu H, Zhan X, Zhu X. Constraints Penalized Q-learning for Safe Offline Reinforcement Learning. AAAI [Internet]. 2022Jun.28 [cited 2026May1];36(8):8753-60. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/20855