Cheng Z, Chen Q, Zhang J, Fei H, Feng X, Che W, et al. CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models. AAAI [Internet]. 2025 Apr. 11 [cited 2026 May 11];39(22):23678-86. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/34538