Huang, Chengyu, Zhengxin Zhang, and Claire Cardie. “HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization”. Proceedings of the AAAI Conference on Artificial Intelligence 40, no. 37 (March 14, 2026): 31122–31130. Accessed July 22, 2026. https://ojs.aaai.org/index.php/AAAI/article/view/40373.