[1]

W. Guan, “MM-TTS: Multi-Modal Prompt Based Style Transfer for Expressive Text-to-Speech Synthesis”, AAAI, vol. 38, no. 16, pp. 18117-18125, Mar. 2024.