[1]

W. Jiang, Y. Cheng, L. Liu, Y. Fang, Y. Peng, and Y. Liu, “Comprehensive Visual Grounding for Video Description”, AAAI, vol. 38, no. 3, pp. 2552–2560, Mar. 2024.