[1]

J. Chen, Y. Pan, Y. Li, T. Yao, H. Chao, and T. Mei, “Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning”, AAAI, vol. 33, no. 01, pp. 8167–8174, Jul. 2019.