[1]

D. He, X. Zhao, J. Huang, F. Li, X. Liu, and S. Wen, “Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos”, AAAI, vol. 33, no. 01, pp. 8393-8400, Jul. 2019.