Hu, W. (2024) “BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions”, Proceedings of the AAAI Conference on Artificial Intelligence, 38(3), pp. 2256–2264. doi: 10.1609/aaai.v38i3.27999.