Wang, Jiankang, Zhihan Zhang, Zhihang Liu, Yang Li, Jiannan Ge, Hongtao Xie, and Yongdong Zhang. 2026. “SpaceVLLM: Endowing Multimodal Large Language Model With Spatio-Temporal Video Grounding Capability”. Proceedings of the AAAI Conference on Artificial Intelligence 40 (12):9912-20. https://doi.org/10.1609/aaai.v40i12.37956.