(1)

Cai, Y.; Wang, L.; Wang, Y.; de Melo, G.; Zhang, Y.; Wang, Y.; He, L. MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models. AAAI 2024, 38, 17709-17717.