(1)

Xu, S.; Pang, L.; Zhu, Y.; Gu, J.; Wei, Z.; Deng, J.; Pan, F.; Shen, H.; Cheng, X. RLKD: Distilling LLMs’ Reasoning via Reinforcement Learning. AAAI 2026, 40, 34151-34159.