(1)

Xuan, H.; Zhang, Z.; Chen, S.; Yang, J.; Yan, Y. Cross-Modal Attention Network for Temporal Inconsistent Audio-Visual Event Localization. AAAI 2020, 34, 279-286.