[1]

X. Zhu, “PSPO: Prompt-Level Prioritization and Experience-Weighted Smoothing for Efficient Policy Optimization”, AAAI, vol. 40, no. 34, pp. 29186–29194, Mar. 2026.