[1]

K. De Asis, A. Chan, S. Pitis, R. Sutton, and D. Graves, “Fixed-Horizon Temporal Difference Methods for Stable Reinforcement Learning”, AAAI, vol. 34, no. 04, pp. 3741-3748, Apr. 2020.