(1)

Yu, J.; Li, S.; Han, M.; Yin, Y.; Song, W.; Jia, C.; Lan, M. Activating Visual Context and Commonsense Reasoning Through Masked Prediction in VLMs. AAAI 2026, 40, 27952-27960.