[1]

T.-H. Zhang, J. Zhang, J. Wang, X. Qian, and X.-C. Yin, “FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles”, AAAI, vol. 39, no. 24, pp. 25922–25930, Apr. 2025.