(1)

Mandal, D.; Radanovic, G.; Gan, J.; Singla, A.; Majumdar, R. Online Reinforcement Learning With Uncertain Episode Lengths. AAAI 2023, 37, 9064-9071.