[1]

J. Zhou, Z. Zhou, Y. Zhou, Y. Mao, Z. Duan, and D. Guo, “CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization”, AAAI, vol. 40, no. 16, pp. 13674–13682, Mar. 2026.