Sun L, Han Y, Zhao Z, Ma D, Shen Z, Chen B, Chen L, Yu K. SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research. AAAI [Internet]. 2024Mar.24 [cited 2024Aug.14];38(17):19053-61. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/29872