(1)

Sun, L.; Han, Y.; Zhao, Z.; Ma, D.; Shen, Z.; Chen, B.; Chen, L.; Yu, K. SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research. AAAI 2024, 38, 19053-19061.