Sun, Liangtai, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen, and Kai Yu. 2024. “SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research”. Proceedings of the AAAI Conference on Artificial Intelligence 38 (17):19053-61. https://doi.org/10.1609/aaai.v38i17.29872.