Wang, Heng, Jianbo Ma, Santiago Pascual, Richard Cartwright, and Weidong Cai. “V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models”. Proceedings of the AAAI Conference on Artificial Intelligence 38, no. 14 (March 24, 2024): 15492–15501. Accessed May 25, 2026. https://ojs.aaai.org/index.php/AAAI/article/view/29475.