Jiang, Wenhui, Yibo Cheng, Linxin Liu, Yuming Fang, Yuxin Peng, and Yang Liu. 2024. “Comprehensive Visual Grounding for Video Description”. Proceedings of the AAAI Conference on Artificial Intelligence 38 (3):2552-60. https://doi.org/10.1609/aaai.v38i3.28032.