Sun, L., Han, Y., Zhao, Z., Ma, D., Shen, Z., Chen, B., Chen, L. and Yu, K. (2024) “SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research”, Proceedings of the AAAI Conference on Artificial Intelligence, 38(17), pp. 19053-19061. doi: 10.1609/aaai.v38i17.29872.