[1]

X. Zhao, Y. Wang, and P. Jin, “Audio-Visual Adaptive Fusion Network for Question Answering Based on Contrastive Learning”, AAAI, vol. 39, no. 10, pp. 10483-10491, Apr. 2025.