[1]

S. Lu, H. Wang, Z. Chen, and Y. Tang, “URPO: A Unified Reward & Policy Optimization Framework for Large Language Models”, AAAI, vol. 40, no. 38, pp. 32329–32337, Mar. 2026.