Zhang, Shuyi, Wei Shi, Sihang Li, Jiayi Liao, Tao Liang, Hengxing Cai, and Xiang Wang. 2026. “Interpretable Reward Model via Sparse Autoencoder”. Proceedings of the AAAI Conference on Artificial Intelligence 40 (41):34808-16. https://doi.org/10.1609/aaai.v40i41.40783.