Weinstein A, Littman M. Bandit-Based Planning and Learning in Continuous-Action Markov Decision Processes. ICAPS [Internet]. 2012 May 14 [cited 2026 May 26];22(1):306-14. Available from: https://ojs.aaai.org/index.php/ICAPS/article/view/13507