[1]

H. Zhang, “NondBREM: Nondeterministic Offline Reinforcement Learning for Large-Scale Order Dispatching”, AAAI, vol. 38, no. 1, pp. 401–409, Mar. 2024.