LiteLong: Resource-Efficient Long-Context Data Synthesis for LLMs

Junlong Jia; Xing Wu; Chaochen Gao; Ziyang Chen; Zijia Lin; Zhongzhi Li; Weinong Wang; Haotian Xu; Donghui Jin; Debing Zhang; Binghui Guo

doi:10.1609/aaai.v40i37.40390

Authors

Junlong Jia School of Artificial Intelligence, Beihang University Zhongguancun Laboratory, Beijing LMIB, NLSDE, Beihang University, Beijing
Xing Wu Institute of Information Engineering, Chinese Academy of Sciences Xiaohongshu Inc
Chaochen Gao Institute of Information Engineering, Chinese Academy of Sciences
Ziyang Chen Institute of Information Engineering, Chinese Academy of Sciences
Zijia Lin Tsinghua University
Zhongzhi Li Xiaohongshu Inc
Weinong Wang Xiaohongshu Inc
Haotian Xu Xiaohongshu Inc
Donghui Jin School of Artificial Intelligence, Beihang University LMIB, NLSDE, Beihang University, Beijing
Debing Zhang Xiaohongshu Inc
Binghui Guo School of Artificial Intelligence, Beihang University Zhongguancun Laboratory, Beijing Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, Beijing LMIB, NLSDE, Beihang University, Beijing

DOI:

https://doi.org/10.1609/aaai.v40i37.40390

Abstract

High-quality long-context data is essential for training large language models (LLMs) capable of processing extensive documents, yet existing synthesis approaches using relevance-based aggregation face challenges of computational efficiency. We present LiteLong, a resource-efficient method for synthesizing long-context data through structured topic organization and multi-agent debate. Our approach leverages the BISAC book classification system to provide a comprehensive hierarchical topic organization, and then employs a debate mechanism with multiple LLMs to generate diverse, high-quality topics within this structure. For each topic, we use lightweight BM25 retrieval to obtain relevant documents and concatenate them into 128K-token training samples. Experiments on HELMET and Ruler benchmarks demonstrate that LiteLong achieves competitive long-context performance and can seamlessly integrate with other long-dependency enhancement methods. LiteLong makes high-quality long-context data synthesis more accessible by reducing both computational and data engineering costs, facilitating further research in long-context language training.

LiteLong: Resource-Efficient Long-Context Data Synthesis for LLMs

Authors

DOI:

Abstract

Downloads

Published

How to Cite

Issue

Section

Information