(1)

Tian, K.; Cheng, Y.; Liu, Y.; Hou, X.; Chen, Q.; Li, H. Towards Efficient and Effective Text-to-Video Retrieval With Coarse-to-Fine Visual Representation Learning. AAAI 2024, 38, 5207-5214.