Chen J, Guo L, Sun J, Shao S, Yuan Z, Lin L, et al. EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE. AAAI [Internet]. 2024 Mar. 24 [cited 2026 May 14];38(2):1110-9. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/27872