(1)

Yang, C.-C.; Fan, W.-C.; Yang, C.-F.; Wang, Y.-C. F. Cross-Modal Mutual Learning for Audio-Visual Speech Recognition and Manipulation. AAAI 2022, 36, 3036-3044.