[1]

S. Yang, Y. Gao, B. An, H. Wang, and X. Chen, “Efficient Average Reward Reinforcement Learning Using Constant Shifting Values”, AAAI, vol. 30, no. 1, Mar. 2016.