[1]

T. R. Sumers, M. K. Ho, R. D. Hawkins, K. Narasimhan, and T. L. Griffiths, “Learning Rewards From Linguistic Feedback”, AAAI, vol. 35, no. 7, pp. 6002-6010, May 2021.