Yang, C.-C., Fan, W.-C., Yang, C.-F., & Wang, Y.-C. F. (2022). Cross-Modal Mutual Learning for Audio-Visual Speech Recognition and Manipulation. Proceedings of the AAAI Conference on Artificial Intelligence, 36(3), 3036-3044. https://doi.org/10.1609/aaai.v36i3.20210