(1)

Zhou, H.; Huang, H.; Zhao, Z.; Han, L.; Wang, H.; Chen, K.; Yang, M.; Bao, W.; Dong, J.; Xu, B. Lost in Benchmarks? Rethinking Large Language Model Benchmarking With Item Response Theory. AAAI 2026, 40, 35085-35093.