Sun, L., Han, Y., Zhao, Z., Ma, D., Shen, Z., Chen, B., Chen, L., & Yu, K. (2024). SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research. Proceedings of the AAAI Conference on Artificial Intelligence, 38(17), 19053-19061. https://doi.org/10.1609/aaai.v38i17.29872