Sadiekh S, Ericheva E, Agarwal C. Polarity-Aware Probing for Quantifying Latent Alignment in Language Models. AAAI [Internet]. 2026 Mar. 14 [cited 2026 Jul. 24];40(44):37896-903. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/41126