(1)

Wang, J.; Zhang, Z.; Liu, Z.; Li, Y.; Ge, J.; Xie, H.; Zhang, Y. SpaceVLLM: Endowing Multimodal Large Language Model With Spatio-Temporal Video Grounding Capability. AAAI 2026, 40, 9912-9920.