[1]

A. Black, J. Shi, Y. Fan, T. Bui, and J. Collomosse, “VIXEN: Visual Text Comparison Network for Image Difference Captioning”, AAAI, vol. 38, no. 2, pp. 846-854, Mar. 2024.