[1]

W. Hu, Y. Xu, Y. Li, W. Li, Z. Chen, and Z. Tu, “BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions”, AAAI, vol. 38, no. 3, pp. 2256–2264, Mar. 2024.