[1]

K. Yamazaki, K. Vo, Q. S. Truong, B. Raj, and N. Le, “VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning”, AAAI, vol. 37, no. 3, pp. 3081–3090, Jun. 2023.