Zheng, Shurong, Yousong Zhu, Hongyin Zhao, Fan Yang, Yufei Zhan, Ming Tang, and Jinqiao Wang. 2026. “GeM-VG: Towards Generalized Multi-Image Visual Grounding With Multimodal Large Language Models”. Proceedings of the AAAI Conference on Artificial Intelligence 40 (34):28857-65. https://doi.org/10.1609/aaai.v40i34.40120.