Kumbam, P. R., Syed, S. U., Thamminedi, P., Harish, S., Perera, I., & Dorr, B. J. (2025). Exploiting Explainability to Design Adversarial Attacks and Evaluate Attack Resilience in Hate-Speech Detection Models. Proceedings of the International AAAI Conference on Web and Social Media, 19(1), 1038–1050. https://doi.org/10.1609/icwsm.v19i1.35859