[1]

Sun, L., Han, Y., Zhao, Z., Ma, D., Shen, Z., Chen, B., Chen, L. and Yu, K. 2024. SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research. Proceedings of the AAAI Conference on Artificial Intelligence. 38, 17 (Mar. 2024), 19053-19061. DOI:https://doi.org/10.1609/aaai.v38i17.29872.