[1]

S. Ji, “Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation”, AAAI, vol. 40, no. 26, pp. 22219–22227, Mar. 2026.