[1]

S. Schmitt, J. Shawe-Taylor, and H. . . van Hasselt, “Chaining Value Functions for Off-Policy Learning”, AAAI, vol. 36, no. 8, pp. 8187–8195, Jun. 2022.