[1]

D. Ghosh, G. K. Atia, and Y. Wang, “ORVIT: Near-Optimal Online Distributionally Robust Reinforcement Learning”, AAAI, vol. 40, no. 25, pp. 21278–21286, Mar. 2026.