[1]

W. Chen, J. Tian, C. Fan, Y. Li, H. He, and Y. Jin, “Preference-Controlled Multi-Objective Reinforcement Learning for Conditional Text Generation”, AAAI, vol. 37, no. 11, pp. 12662–12672, Jun. 2023.