(1)

Zheng, S.; Zhu, Y.; Zhao, H.; Yang, F.; Zhan, Y.; Tang, M.; Wang, J. GeM-VG: Towards Generalized Multi-Image Visual Grounding With Multimodal Large Language Models. AAAI 2026, 40, 28857-28865.