[1]

J. Wang, “SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability”, AAAI, vol. 40, no. 12, pp. 9912–9920, Mar. 2026.