(1)

Zhu, Q.; Zhang, J.; Gu, Y.; Hu, Y.; Dai, L. Multichannel AV-wav2vec2: A Framework for Learning Multichannel Multi-Modal Speech Representation. AAAI 2024, 38, 19768-19776.