Wang, Y. (2024) “Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer”, Proceedings of the AAAI Conference on Artificial Intelligence, 38(6), pp. 5669–5677. doi: 10.1609/aaai.v38i6.28378.