(1)

Zhang, S.; Shi, W.; Li, S.; Liao, J.; Liang, T.; Cai, H.; Wang, X. Interpretable Reward Model via Sparse Autoencoder. AAAI 2026, 40, 34808-34816.