[1]

T. Xiang, “FAM: Fine-Grained Alignment Matters in Multimodal Embedding Learning with Large Vision-Language Models”, AAAI, vol. 40, no. 32, pp. 27046–27054, Mar. 2026.