[1]

C. Wang, “ESRL: Efficient Sampling-Based Reinforcement Learning for Sequence Generation”, AAAI, vol. 38, no. 17, pp. 19107–19115, Mar. 2024.