Gu, Shangding, Bilgehan Sel, Yuhao Ding, Lu Wang, Qingwei Lin, Ming Jin, and Alois Knoll. “Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation”. Proceedings of the AAAI Conference on Artificial Intelligence 38, no. 19 (March 24, 2024): 21099–21106. Accessed July 10, 2026. https://ojs.aaai.org/index.php/AAAI/article/view/30102.