[1]

Zhao, P. et al. 2025. Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing. Proceedings of the AAAI Conference on Artificial Intelligence. 39, 10 (Apr. 2025), 10448–10456. DOI:https://doi.org/10.1609/aaai.v39i10.33134.