Wang, J. (2026) “SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability”, Proceedings of the AAAI Conference on Artificial Intelligence, 40(12), pp. 9912–9920. doi: 10.1609/aaai.v40i12.37956.