[1]

T. Chen and J. Luo, “Expressing Objects Just Like Words: Recurrent Visual Embedding for Image-Text Matching”, AAAI, vol. 34, no. 07, pp. 10583-10590, Apr. 2020.