Zhou L, Palangi H, Zhang L, Hu H, Corso J, Gao J. Unified Vision-Language Pre-Training for Image Captioning and VQA. AAAI [Internet]. 2020Apr.3 [cited 2024Apr.24];34(07):13041-9. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/7005