[1]

S. Han, “EvalMuse-40K: A Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Alignment Evaluation”, AAAI, vol. 40, no. 6, pp. 4583–4591, Mar. 2026.