(1)

Wang, H.; Ma, J.; Pascual, S.; Cartwright, R.; Cai, W. V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models. AAAI 2024, 38, 15492-15501.