Cai, Y., Wang, L., Wang, Y., de Melo, G., Zhang, Y., Wang, Y., & He, L. (2024). MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models. Proceedings of the AAAI Conference on Artificial Intelligence, 38(16), 17709-17717. https://doi.org/10.1609/aaai.v38i16.29723