(1)

Knox, W. B.; Hatgis-Kessell, S.; Adalgeirsson, S. O.; Booth, S.; Dragan, A.; Stone, P.; Niekum, S. Learning Optimal Advantage from Preferences and Mistaking It for Reward. AAAI 2024, 38, 10066-10073.