[1]

M. Valentino, G. Kim, D. Dalal, Z. Zhao, and A. Freitas, “Mitigating Content Effects on Reasoning in Language Models Through Fine-Grained Activation Steering”, AAAI, vol. 40, no. 39, pp. 33314–33322, Mar. 2026.