[1]

C. Zhang, L. F. D’Haro, Y. Chen, M. Zhang, and H. Li, “A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators”, AAAI, vol. 38, no. 17, pp. 19515–19524, Mar. 2024.