Optimizing Quantiles in Preference-Based Markov Decision Processes

Hugo Gilbert; Paul Weng; Yan Xu

doi:10.1609/aaai.v31i1.11026

Optimizing Quantiles in Preference-Based Markov Decision Processes

Authors

Hugo Gilbert Pierre and Marie Curie University
Paul Weng Sun Yat-sen University
Yan Xu Carnegie Mellon University

DOI:

https://doi.org/10.1609/aaai.v31i1.11026

Keywords:

Markov decision process, Quantile

Abstract

In the Markov decision process model, policies are usually evaluated by expected cumulative rewards. As this decision criterion is not always suitable, we propose in this paper an algorithm for computing a policy optimal for the quantile criterion. Both finite and infinite horizons are considered. Finally we experimentally evaluate our approach on random MDPs and on a data center control problem.

Downloads

Published

2017-02-12

How to Cite

Gilbert, H., Weng, P., & Xu, Y. (2017). Optimizing Quantiles in Preference-Based Markov Decision Processes. Proceedings of the AAAI Conference on Artificial Intelligence, 31(1). https://doi.org/10.1609/aaai.v31i1.11026

Download Citation

Issue

Vol. 31 No. 1 (2017): Thirty-First AAAI Conference on Artificial Intelligence

Section

Main Track: Planning and Scheduling

Optimizing Quantiles in Preference-Based Markov Decision Processes

Authors

DOI:

Keywords:

Abstract

Downloads

Published

How to Cite

Issue

Section

Information

Developed By

Subscription