(1)

Bi, Z.; Srivastava, G.; Li, Y.; Roy, S.; Lu, M.; Ziyadi, M.; Wang, X. JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation. AAAI 2026, 40, 30076-30084.