[1]

W. Liao, X. Song, and H. Lu, “DRIFT: Difference-Aware Reinforcement Through Iterative Fine-Tuning for Language Model”, AAAI, vol. 40, no. 38, pp. 31988–31996, Mar. 2026.