[1]

R. Wu, “HiMo-CLIP: Modeling Semantic Hierarchy and Monotonicity in Vision-Language Alignment”, AAAI, vol. 40, no. 32, pp. 26974–26982, Mar. 2026.