[1]

M. Kim, J. H. Yeo, and Y. M. Ro, “Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading”, AAAI, vol. 36, no. 1, pp. 1174-1182, Jun. 2022.