Weinstein, A. and Littman, M. (2012) “Bandit-Based Planning and Learning in Continuous-Action Markov Decision Processes”, Proceedings of the International Conference on Automated Planning and Scheduling, 22(1), pp. 306–314. doi: 10.1609/icaps.v22i1.13507.