[1]

Topin, N., Milani, S., Fang, F. and Veloso, M. 2021. Iterative Bounding MDPs: Learning Interpretable Policies via Non-Interpretable Methods. Proceedings of the AAAI Conference on Artificial Intelligence. 35, 11 (May 2021), 9923-9931. DOI:https://doi.org/10.1609/aaai.v35i11.17192.