(1)

Cao, Z.; Guo, H.; Zhang, J.; Oliehoek, F.; Fastenrath, U. Maximizing the Probability of Arriving on Time: A Practical Q-Learning Method. AAAI 2017, 31.