Weinstein, Ari, and Michael Littman. “Bandit-Based Planning and Learning in Continuous-Action Markov Decision Processes”. Proceedings of the International Conference on Automated Planning and Scheduling, vol. 22, no. 1, May 2012, pp. 306-14, doi:10.1609/icaps.v22i1.13507.