(1)

Fang, K.; Zhou, L.; Jin, C.; Zhang, Y.; Weng, K.; Zhang, T.; Fan, W. Fully Convolutional Video Captioning With Coarse-to-Fine and Inherited Attention. AAAI 2019, 33, 8271-8278.