Zhu, Xinxin, Ying He, Haowen Hou, Ruichong Zhang, Nianbo Zeng, Yulin Peng, Jiongfeng Fang, and F. Richard Yu. “PSPO: Prompt-Level Prioritization and Experience-Weighted Smoothing for Efficient Policy Optimization”. Proceedings of the AAAI Conference on Artificial Intelligence 40, no. 34 (March 14, 2026): 29186–29194. Accessed May 10, 2026. https://ojs.aaai.org/index.php/AAAI/article/view/40157.