[1]

Y. Xie, “ViCToR: Improving Visual Comprehension via Token Reconstruction for Pretraining LMMs”, AAAI, vol. 40, no. 32, pp. 27099–27107, Mar. 2026.