[1]

Wang, J. et al. 2026. SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability. Proceedings of the AAAI Conference on Artificial Intelligence. 40, 12 (Mar. 2026), 9912–9920. DOI:https://doi.org/10.1609/aaai.v40i12.37956.