Han S, Fan H, Fu J, Li L, Li T, Cui J, et al. EvalMuse-40K: A Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Alignment Evaluation. AAAI [Internet]. 2026 Mar. 14 [cited 2026 May 15];40(6):4583-91. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/42458