(1)

Zhang, Z.; Tan, X. An Implicit Trust Region Approach to Behavior Regularized Offline Reinforcement Learning. AAAI 2024, 38, 16944-16952.