Bhosale, Swapnil, Haosen Yang, Diptesh Kanojia, Jiankang Deng, and Xiatian Zhu. “Unsupervised Audio-Visual Segmentation With Modality Alignment”. Proceedings of the AAAI Conference on Artificial Intelligence 39, no. 15 (April 11, 2025): 15567–15575. Accessed July 14, 2026. https://ojs.aaai.org/index.php/AAAI/article/view/33709.