[1]

M. Xu, “VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models”, AAAI, vol. 40, no. 13, pp. 11332–11341, Mar. 2026.