Wang C, Zhou H, Hu Y, Huo Y, Li B, Liu T, et al. ESRL: Efficient Sampling-Based Reinforcement Learning for Sequence Generation. AAAI [Internet]. 2024 Mar. 24 [cited 2026 May 13];38(17):19107-15. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/29878