Yariv, G. (2024) “Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation”, Proceedings of the AAAI Conference on Artificial Intelligence, 38(7), pp. 6639–6647. doi: 10.1609/aaai.v38i7.28486.