[1]

H. Yu and J. Siskind, “Learning to Describe Video with Weak Supervision by Exploiting Negative Sentential Information”, AAAI, vol. 29, no. 1, Mar. 2015.