[1]

G. Xiong and M. Tambe, “VORTEX: Aligning Task Utility and Human Preferences Through LLM-Guided Reward Shaping”, AAAI, vol. 40, no. 32, pp. 27162–27170, Mar. 2026.