Guan W, Li Y, Li T, Huang H, Wang F, Lin J, Huang L, Li L, Hong Q. MM-TTS: Multi-Modal Prompt Based Style Transfer for Expressive Text-to-Speech Synthesis. AAAI [Internet]. 2024Mar.24 [cited 2026Apr.26];38(16):18117-25. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/29769