[1]

Z. Bi, “JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation”, AAAI, vol. 40, no. 36, pp. 30076–30084, Mar. 2026.