(1)

Ji, S.; Wang, Z.; Yu, J.; Yang, X.; Li, S.; Wu, S.; Zhang, K. Diff-V2M: A Hierarchical Conditional Diffusion Model With Explicit Rhythmic Modeling for Video-to-Music Generation. AAAI 2026, 40, 22219-22227.