Yu, Yunqian, Biao Chen, Yunya Zhang, Tonglan Xie, Mengmeng Jing, and Lin Zuo. “Instruction-Guided Cross-Modal Clustering for Training-Free Visual Token Pruning in Vision-Language Models”. Proceedings of the AAAI Conference on Artificial Intelligence 40, no. 14 (March 14, 2026): 12213-12221. Accessed May 4, 2026. https://ojs.aaai.org/index.php/AAAI/article/view/38212.