Wu, Ruijia, Ping Chen, Fei Shen, Shaoan Zhao, Qiang Hui, Huanlin Gao, Ting Lu, et al. 2026. “HiMo-CLIP: Modeling Semantic Hierarchy and Monotonicity in Vision-Language Alignment”. Proceedings of the AAAI Conference on Artificial Intelligence 40 (32):26974-82. https://doi.org/10.1609/aaai.v40i32.39910.