[1]

S. Song, M. Park, and G. Kim, “MAVIS: A Benchmark for Multimodal Source Attribution in Long-form Visual Question Answering”, AAAI, vol. 40, no. 39, pp. 33028–33037, Mar. 2026.