[1]

J. Li, W. Zhao, Z. Huang, Y. Guo, and Y. Tian, “Do Audio-Visual Segmentation Models Truly Segment Sounding Objects?”, AAAI, vol. 40, no. 8, pp. 6172–6180, Mar. 2026.