[1]

H. Xu, K. He, B. A. Plummer, L. Sigal, S. Sclaroff, and K. Saenko, “Multilevel Language and Vision Integration for Text-to-Clip Retrieval”, AAAI, vol. 33, no. 01, pp. 9062-9069, Jul. 2019.