(1)

Jang, J.; Kong, C.; Jeon, D.; Kim, S.; Kwak, N. Unifying Vision-Language Representation Space With Single-Tower Transformer. AAAI 2023, 37, 980-988.