KUMBAM, Pranath Reddy; SYED, Sohaib Uddin; THAMMINEDI, Prashanth; HARISH, Suhas; PERERA, Ian; DORR, Bonnie J. Exploiting Explainability to Design Adversarial Attacks and Evaluate Attack Resilience in Hate-Speech Detection Models. Proceedings of the International AAAI Conference on Web and Social Media, [S. l.], v. 19, n. 1, p. 1038–1050, 2025. DOI: 10.1609/icwsm.v19i1.35859. Disponível em: https://ojs.aaai.org/index.php/ICWSM/article/view/35859. Acesso em: 29 may. 2026.