[1]

H. Bi, “F2RVLM: Boosting Fine-grained Fragment Retrieval for Multi-Modal Long-form Dialogue with Vision Language Model”, AAAI, vol. 40, no. 17, pp. 14493–14501, Mar. 2026.