[1]

M. Peng, C. Wang, Y. Shi, and X.-D. Zhou, “Efficient End-to-End Video Question Answering with Pyramidal Multimodal Transformer”, AAAI, vol. 37, no. 2, pp. 2038–2046, Jun. 2023.