(1)

Sadiekh, S.; Ericheva, E.; Agarwal, C. Polarity-Aware Probing for Quantifying Latent Alignment in Language Models. AAAI 2026, 40, 37896-37903.