Xu, Shicheng, Liang Pang, Yunchang Zhu, Jia Gu, Zihao Wei, Jingcheng Deng, Feiyang Pan, Huawei Shen, and Xueqi Cheng. 2026. “RLKD: Distilling LLMs’ Reasoning via Reinforcement Learning”. Proceedings of the AAAI Conference on Artificial Intelligence 40 (40):34151-59. https://doi.org/10.1609/aaai.v40i40.40710.