[1]

S. Geng, “Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers”, AAAI, vol. 35, no. 2, pp. 1415-1423, May 2021.