Lu J, Liu J, Zheng X, Yang M, Wang J, Wang P, Zhang Y. MHB: Medical Hallucination Benchmark for Large Language Models in Complex Clinical Tasks. AAAI [Internet]. 2026Mar.14 [cited 2026May1];40(45):38971-8. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/41243