Jiang, Chaoya, Wei Ye, Haiyang Xu, Qinghao Ye, Ming Yan, Ji Zhang, and Shikun Zhang. “TiMix: Text-Aware Image Mixing for Effective Vision-Language Pre-Training”. Proceedings of the AAAI Conference on Artificial Intelligence 38, no. 3 (March 24, 2024): 2489-2497. Accessed July 11, 2024. https://ojs.aaai.org/index.php/AAAI/article/view/28025.