Kim, Minsu, et al. “Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, no. 1, June 2022, pp. 1174-82, doi:10.1609/aaai.v36i1.20003.