[1]

Q. Zhu, J. Zhang, Y. Gu, Y. Hu, and L. Dai, “Multichannel AV-wav2vec2: A Framework for Learning Multichannel Multi-Modal Speech Representation”, AAAI, vol. 38, no. 17, pp. 19768–19776, Mar. 2024.