Zhang, S., Shi, W., Li, S., Liao, J., Liang, T., Cai, H., & Wang, X. (2026). Interpretable Reward Model via Sparse Autoencoder. Proceedings of the AAAI Conference on Artificial Intelligence, 40(41), 34808–34816. https://doi.org/10.1609/aaai.v40i41.40783