Knox WB, Hatgis-Kessell S, Adalgeirsson SO, Booth S, Dragan A, Stone P, Niekum S. Learning Optimal Advantage from Preferences and Mistaking It for Reward. AAAI [Internet]. 2024Mar.24 [cited 2024Nov.22];38(9):10066-73. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/28870