Zhou Z, Zhou J, Qian W, Tang S, Chang X, Guo D. Dense Audio-Visual Event Localization Under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration. AAAI [Internet]. 2025 Apr. 11 [cited 2026 May 31];39(10):10905-13. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/33185