Zhang, Hongbo, et al. “NondBREM: Nondeterministic Offline Reinforcement Learning for Large-Scale Order Dispatching”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 1, Mar. 2024, pp. 401-9, doi:10.1609/aaai.v38i1.27794.