(1)

Chen, C.; Hu, Y.; Zhang, Q.; Zou, H.; Zhu, B.; Chng, E. S. Leveraging Modality-Specific Representations for Audio-Visual Speech Recognition via Reinforcement Learning. AAAI 2023, 37, 12607-12615.