Zhao, P., Zhou, J., Zhao, Y., Guo, D., & Chen, Y. (2025). Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing. Proceedings of the AAAI Conference on Artificial Intelligence, 39(10), 10448–10456. https://doi.org/10.1609/aaai.v39i10.33134