[1]

P. R. Kumbam, S. U. Syed, P. Thamminedi, S. Harish, I. Perera, and B. J. Dorr, “Exploiting Explainability to Design Adversarial Attacks and Evaluate Attack Resilience in Hate-Speech Detection Models”, ICWSM, vol. 19, no. 1, pp. 1038–1050, Jun. 2025.