(1)

Wu, R.; Chen, P.; Shen, F.; Zhao, S.; Hui, Q.; Gao, H.; Lu, T.; Liu, Z.; Zhao, F.; Wang, K. HiMo-CLIP: Modeling Semantic Hierarchy and Monotonicity in Vision-Language Alignment. AAAI 2026, 40, 26974-26982.