[1]

P. Srinivasan and W. Knottenbelt, “Behaviour Preference Regression for Offline Reinforcement Learning”, AAAI, vol. 39, no. 19, pp. 20575–20583, Apr. 2025.