(1)

Ruan, J.; Pu, X.; Gao, M.; Wan, X.; Zhu, Y. Better Than Random: Reliable NLG Human Evaluation With Constrained Active Sampling. AAAI 2024, 38, 18915-18923.