Bi, Hanbo, et al. “F2RVLM: Boosting Fine-Grained Fragment Retrieval for Multi-Modal Long-Form Dialogue With Vision Language Model”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 40, no. 17, Mar. 2026, pp. 14493-01, doi:10.1609/aaai.v40i17.38466.