Tian, Hao, Sheng Lu, Fuwen Tian, Guangming Cui, Zheng Li, Xuyun Zhang, Quan Z. Sheng, and Wanchun Dou. “DIAA: A Decoding-Efficient Inference Acceleration Approach for On-Device Large Language Models”. Proceedings of the AAAI Conference on Artificial Intelligence 40, no. 31 (March 14, 2026): 25896–25904. Accessed May 14, 2026. https://ojs.aaai.org/index.php/AAAI/article/view/39789.