[1]

J. Lu, “MHB: Medical Hallucination Benchmark for Large Language Models in Complex Clinical Tasks”, AAAI, vol. 40, no. 45, pp. 38971-38978, Mar. 2026.