[1]

S. Zhang, “Interpretable Reward Model via Sparse Autoencoder”, AAAI, vol. 40, no. 41, pp. 34808–34816, Mar. 2026.