Robbins, W. “Towards Multimodal Vision-Language Models Generating Non-Generic Text”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, no. 11, June 2022, pp. 13138-9, doi:10.1609/aaai.v36i11.21705.