Wang, Jiankang, et al. “SpaceVLLM: Endowing Multimodal Large Language Model With Spatio-Temporal Video Grounding Capability”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 40, no. 12, Mar. 2026, pp. 9912-20, doi:10.1609/aaai.v40i12.37956.