Lu, J., J. Liu, X. Zheng, M. Yang, J. Wang, P. Wang, and Y. Zhang. “MHB: Medical Hallucination Benchmark for Large Language Models in Complex Clinical Tasks”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 40, no. 45, Mar. 2026, pp. 38971-8, doi:10.1609/aaai.v40i45.41243.