Yamazaki, K. (2023) “VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning”, Proceedings of the AAAI Conference on Artificial Intelligence, 37(3), pp. 3081–3090. doi: 10.1609/aaai.v37i3.25412.