Yariv, Guy, et al. “Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 7, Mar. 2024, pp. 6639-47, doi:10.1609/aaai.v38i7.28486.