[1]

Z. Cheng, “CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models”, AAAI, vol. 39, no. 22, pp. 23678–23686, Apr. 2025.