[1]

P. Bao, W. Yang, B. P. Ng, M. H. Er, and A. C. Kot, “Cross-Modal Label Contrastive Learning for Unsupervised Audio-Visual Event Localization”, AAAI, vol. 37, no. 1, pp. 215-222, Jun. 2023.