[1]

H. Xuan, Z. Zhang, S. Chen, J. Yang, and Y. Yan, “Cross-Modal Attention Network for Temporal Inconsistent Audio-Visual Event Localization”, AAAI, vol. 34, no. 01, pp. 279-286, Apr. 2020.