[1]

P. Zhou, “MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models”, AAAI, vol. 40, no. 34, pp. 28982-28990, Mar. 2026.