[1]

J. Jiang, Z. Chen, H. Lin, X. Zhao, and Y. Gao, “Divide and Conquer: Question-Guided Spatio-Temporal Contextual Attention for Video Question Answering”, AAAI, vol. 34, no. 07, pp. 11101-11108, Apr. 2020.