Kar A, Singh R. Policy Zooming: Adaptive Discretization-based Infinite-Horizon Average-Reward Reinforcement Learning. AAAI [Internet]. 2026Mar.14 [cited 2026May3];40(27):22527-35. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/39412