[1]

P. Zhao, J. Zhou, Y. Zhao, D. Guo, and Y. Chen, “Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing”, AAAI, vol. 39, no. 10, pp. 10448–10456, Apr. 2025.