[1]

S. Bhosale, H. Yang, D. Kanojia, J. Deng, and X. Zhu, “Unsupervised Audio-Visual Segmentation with Modality Alignment”, AAAI, vol. 39, no. 15, pp. 15567–15575, Apr. 2025.