Ruan J, Pu X, Gao M, Wan X, Zhu Y. Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling. AAAI [Internet]. 2024Mar.24 [cited 2024Aug.14];38(17):18915-23. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/29857