Bi, Zhenyu, Gaurav Srivastava, Yang Li, Swastik Roy, Meng Lu, Morteza Ziyadi, and Xuan Wang. 2026. “JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation”. Proceedings of the AAAI Conference on Artificial Intelligence 40 (36):30076-84. https://doi.org/10.1609/aaai.v40i36.40256.