(1)

Qiu, R.; Wang, R.; Yang, G.; Li, X.; Shao, Z. LPPG-RL: Lexicographically Projected Policy Gradient Reinforcement Learning With Subproblem Exploration. AAAI 2026, 40, 25009-25017.