[1]

L. Xiong, “D2 Prune: Sparsifying Large Language Models via Dual Taylor Expansion and Attention Distribution Awareness”, AAAI, vol. 40, no. 32, pp. 27171–27179, Mar. 2026.