[1]

X. Li, Y. Lan, and C. Yang, “TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning”, AAAI, vol. 39, no. 23, pp. 24485–24493, Apr. 2025.