Zhang C, Chong D, Jiang F, Tang C, Gao A, Tang G, Li H. Aligning Language Models Using Follow-up Likelihood as Reward Signal. AAAI [Internet]. 2025Apr.11 [cited 2026Apr.28];39(24):25832-41. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/34776