[1]

R. Xu, C. Xiong, W. Chen, and J. Corso, “Jointly Modeling Deep Video and Compositional Text to Bridge Vision and Language in a Unified Framework”, AAAI, vol. 29, no. 1, Feb. 2015.