[1]

Z. Liu, J. Liu, and F. Ma, “Improving Cross-Modal Alignment with Synthetic Pairs for Text-Only Image Captioning”, AAAI, vol. 38, no. 4, pp. 3864–3872, Mar. 2024.