Salin E, Farah B, Ayache S, Favre B. Are Vision-Language Transformers Learning Multimodal Representations? A Probing Perspective. AAAI [Internet]. 2022Jun.28 [cited 2024Apr.18];36(10):11248-57. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/21375