LI, Bingliang; YANG, Fengyu; MAO, Yuxin; YE, Qingwen; CHEN, Hongkai; ZHONG, Yiran. Tri-Ergon: Fine-Grained Video-to-Audio Generation with Multi-Modal Conditions and LUFS Control. Proceedings of the AAAI Conference on Artificial Intelligence, [S. l.], v. 39, n. 5, p. 4616–4624, 2025. DOI: 10.1609/aaai.v39i5.32487. Disponível em: https://ojs.aaai.org/index.php/AAAI/article/view/32487. Acesso em: 10 may. 2026.