Schmitt, Simon, et al. “Chaining Value Functions for Off-Policy Learning”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, no. 8, June 2022, pp. 8187-95, doi:10.1609/aaai.v36i8.20792.