(1)

Zhang, Y.; Zhang, M.; Yuan, H.; Liu, S.; Shi, Y.; Gui, T.; Zhang, Q.; Huang, X. LLMEval: A Preliminary Study on How to Evaluate Large Language Models. AAAI 2024, 38, 19615-19622.