[1]

S. Sadiekh, E. Ericheva, and C. Agarwal, “Polarity-Aware Probing for Quantifying Latent Alignment in Language Models”, AAAI, vol. 40, no. 44, pp. 37896–37903, Mar. 2026.