[1]

H. Jin, Y. Li, H. Fan, L. Shen, X. Li, and B. Li, “Uncovering and Aligning Anomalous Attention Heads to Defend Against NLP Backdoor Attacks”, AAAI, vol. 40, no. 44, pp. 37472–37480, Mar. 2026.