Zhang H, Wang G, Wang X, Zhou Z, Zhang C, Dong Z, et al. NondBREM: Nondeterministic Offline Reinforcement Learning for Large-Scale Order Dispatching. AAAI [Internet]. 2024 Mar. 25 [cited 2026 May 13];38(1):401-9. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/27794