Wang, Jiankang, Zhihan Zhang, Zhihang Liu, Yang Li, Jiannan Ge, Hongtao Xie, and Yongdong Zhang. “SpaceVLLM: Endowing Multimodal Large Language Model With Spatio-Temporal Video Grounding Capability”. Proceedings of the AAAI Conference on Artificial Intelligence 40, no. 12 (March 14, 2026): 9912–9920. Accessed May 10, 2026. https://ojs.aaai.org/index.php/AAAI/article/view/37956.