Yang, Chih-Chun, Wan-Cyuan Fan, Cheng-Fu Yang, and Yu-Chiang Frank Wang. 2022. “Cross-Modal Mutual Learning for Audio-Visual Speech Recognition and Manipulation”. Proceedings of the AAAI Conference on Artificial Intelligence 36 (3):3036-44. https://doi.org/10.1609/aaai.v36i3.20210.