Tian, Changyuan, Zhicong Lu, Shuang Qian, Nayu Liu, Peiguang Li, Li Jin, Leiyi Hu, et al. 2026. “Rectify Evaluation Preference: Improving LLMs’ Critique on Math Reasoning via Perplexity-Aware Reinforcement Learning”. Proceedings of the AAAI Conference on Artificial Intelligence 40 (39):33241-49. https://doi.org/10.1609/aaai.v40i39.40609.