Bi, Hanbo, Zhiqiang Yuan, Zexi Jia, Jiapei Zhang, Chongyang Li, Peixiang Luo, Ying Deng, Xiaoyue Duan, and Jinchao Zhang. “F2RVLM: Boosting Fine-Grained Fragment Retrieval for Multi-Modal Long-Form Dialogue With Vision Language Model”. Proceedings of the AAAI Conference on Artificial Intelligence 40, no. 17 (March 14, 2026): 14493–14501. Accessed May 26, 2026. https://ojs.aaai.org/index.php/AAAI/article/view/38466.