[1]

S. Cao, B. Wang, W. Zhang, and L. Ma, “Visual Consensus Modeling for Video-Text Retrieval”, AAAI, vol. 36, no. 1, pp. 167-175, Jun. 2022.