[1]

Lu, Z. et al. 2026. R-AVST: Empowering Video-LLMs with Fine-Grained Spatio-Temporal Reasoning in Complex Audio-Visual Scenarios. Proceedings of the AAAI Conference on Artificial Intelligence. 40, 9 (Mar. 2026), 7627–7635. DOI:https://doi.org/10.1609/aaai.v40i9.37704.