(1)

Lancewicki, T.; Rosenberg, A.; Mansour, Y. Learning Adversarial Markov Decision Processes With Delayed Feedback. AAAI 2022, 36, 7281-7289.