Xuan H, Zhang Z, Chen S, Yang J, Yan Y. Cross-Modal Attention Network for Temporal Inconsistent Audio-Visual Event Localization. AAAI [Internet]. 2020Apr.3 [cited 2024Aug.31];34(01):279-86. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/5361