(1)

Feng, Z.; Yang, S.; Duan, B.; Yang, W.; Wang, J. EM-KD: Distilling Efficient Multimodal Large Language Model With Unbalanced Vision Tokens. AAAI 2026, 40, 21111-21119.