[1]

X. Guo, X. Yang, L. Zhang, J. Yang, Z. Wang, and J. Luan, “AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control”, AAAI, vol. 40, no. 26, pp. 21504–21512, Mar. 2026.