Jiang M, Wang Z, Wang Q, Búš P, Cheng M, Wang Y, Liu Q, Li R, Zeng P, Liu R, Liang A, Xu Y, Hu Y, Zhang C, Dong Z. TAPO: Dynamic Teacher and Perturbed Answer Injection for Policy Optimization. AAAI [Internet]. 2026Mar.14 [cited 2026May4];40(44):37462-71. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/41079