[1]

Z. Lu, T. Geng, Y. Chen, T. Wang, P. Lu, and F. Zheng, “R-AVST: Empowering Video-LLMs with Fine-Grained Spatio-Temporal Reasoning in Complex Audio-Visual Scenarios”, AAAI, vol. 40, no. 9, pp. 7627–7635, Mar. 2026.