(1)

Fu, T.; Xu, X.; Xu, W.; Chen, J.; Ren, R.; Deng, B.; Zhao, X.; Cao, J.; Cao, X. Two Heads Are Better Than One: Distilling Large Language Model Features into Small Models With Feature Decomposition and Mixture. AAAI 2026, 40, 19082-19090.