Lancewicki, Tal, et al. “Learning Adversarial Markov Decision Processes With Delayed Feedback”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, no. 7, June 2022, pp. 7281-9, doi:10.1609/aaai.v36i7.20690.