(1)

Zhuang, J.; Lu, L.; Dai, M.; Hu, R.; Chen, J.; Liu, Q.; Hu, H. ST3: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming. AAAI 2025, 39, 11049-11057.