(1)

Zhang, C.; D’Haro, L. F.; Chen, Y.; Zhang, M.; Li, H. A Comprehensive Analysis of the Effectiveness of Large Language Models As Automatic Dialogue Evaluators. AAAI 2024, 38, 19515-19524.