[1]

H. Tian, “DIAA: A Decoding-Efficient Inference Acceleration Approach for On-Device Large Language Models”, AAAI, vol. 40, no. 31, pp. 25896–25904, Mar. 2026.