[1]

J. Jang, C. Kong, D. Jeon, S. Kim, and N. Kwak, “Unifying Vision-Language Representation Space with Single-Tower Transformer”, AAAI, vol. 37, no. 1, pp. 980-988, Jun. 2023.