[1]

Y. Wang, W. Liu, G. Li, J. Ding, D. Hu, and X. Li, “Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer”, AAAI, vol. 38, no. 6, pp. 5669–5677, Mar. 2024.