[1]

H. Wang, J. Ma, S. Pascual, R. Cartwright, and W. Cai, “V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models”, AAAI, vol. 38, no. 14, pp. 15492–15501, Mar. 2024.