Cai, Yan, Linlin Wang, Ye Wang, Gerard de Melo, Ya Zhang, Yanfeng Wang, and Liang He. 2024. “MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models”. Proceedings of the AAAI Conference on Artificial Intelligence 38 (16):17709-17. https://doi.org/10.1609/aaai.v38i16.29723.