Zhang, H. (2024) “NondBREM: Nondeterministic Offline Reinforcement Learning for Large-Scale Order Dispatching”, Proceedings of the AAAI Conference on Artificial Intelligence, 38(1), pp. 401–409. doi: 10.1609/aaai.v38i1.27794.