(1)

Bi, H.; Yuan, Z.; Jia, Z.; Zhang, J.; Li, C.; Luo, P.; Deng, Y.; Duan, X.; Zhang, J. F2RVLM: Boosting Fine-Grained Fragment Retrieval for Multi-Modal Long-Form Dialogue With Vision Language Model. AAAI 2026, 40, 14493-14501.