Li, Yidi, Hong Liu, and Hao Tang. 2022. “Multi-Modal Perception Attention Network With Self-Supervised Learning for Audio-Visual Speaker Tracking”. Proceedings of the AAAI Conference on Artificial Intelligence 36 (2):1456-63. https://doi.org/10.1609/aaai.v36i2.20035.