Xu, R., C. Xiong, W. Chen, and J. Corso. “Jointly Modeling Deep Video and Compositional Text to Bridge Vision and Language in a Unified Framework”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 29, no. 1, Feb. 2015, doi:10.1609/aaai.v29i1.9512.