[1]

Z. Zhang and X. Tan, “An Implicit Trust Region Approach to Behavior Regularized Offline Reinforcement Learning”, AAAI, vol. 38, no. 15, pp. 16944-16952, Mar. 2024.