Zhu, Xinxin, et al. “PSPO: Prompt-Level Prioritization and Experience-Weighted Smoothing for Efficient Policy Optimization”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 40, no. 34, Mar. 2026, pp. 29186-94, doi:10.1609/aaai.v40i34.40157.