Zhou, Luowei, Hamid Palangi, Lei Zhang, Houdong Hu, Jason Corso, and Jianfeng Gao. “Unified Vision-Language Pre-Training for Image Captioning and VQA”. Proceedings of the AAAI Conference on Artificial Intelligence 34, no. 07 (April 3, 2020): 13041-13049. Accessed April 23, 2024. https://ojs.aaai.org/index.php/AAAI/article/view/7005.