[1]

Y. Cai, “MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models”, AAAI, vol. 38, no. 16, pp. 17709-17717, Mar. 2024.