(1)

Cheng, Z.; Chen, Q.; Zhang, J.; Fei, H.; Feng, X.; Che, W.; Li, M.; Qin, L. CoMT: A Novel Benchmark for Chain of Multi-Modal Thought on Large Vision-Language Models. AAAI 2025, 39, 23678-23686.