(1)

Zhang, H.; Wang, G.; Wang, X.; Zhou, Z.; Zhang, C.; Dong, Z.; Wang, Y. NondBREM: Nondeterministic Offline Reinforcement Learning for Large-Scale Order Dispatching. AAAI 2024, 38, 401-409.