[1]

W. Meng, Q. Zheng, G. Pan, and Y. Yin, “Off-Policy Proximal Policy Optimization”, AAAI, vol. 37, no. 8, pp. 9162–9170, Jun. 2023.