[1]

Z. Feng, S. Yang, B. Duan, W. Yang, and J. Wang, “EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens”, AAAI, vol. 40, no. 25, pp. 21111–21119, Mar. 2026.