(1)

Feng, X.; Jiang, Z.; Kaufmann, T.; Xu, P.; Hüllermeier, E.; Weng, P.; Zhu, Y. DUO: Diverse, Uncertain, On-Policy Query Generation and Selection for Reinforcement Learning from Human Feedback. AAAI 2025, 39, 16604-16612.