(1)

De Asis, K.; Chan, A.; Pitis, S.; Sutton, R.; Graves, D. Fixed-Horizon Temporal Difference Methods for Stable Reinforcement Learning. AAAI 2020, 34, 3741-3748.