Fang, Xiang, Daizong Liu, Wanlong Fang, Pan Zhou, Zichuan Xu, Wenzheng Xu, Junyang Chen, and Renfu Li. “Fewer Steps, Better Performance: Efficient Cross-Modal Clip Trimming for Video Moment Retrieval Using Language”. Proceedings of the AAAI Conference on Artificial Intelligence 38, no. 2 (March 24, 2024): 1735–1743. Accessed May 14, 2026. https://ojs.aaai.org/index.php/AAAI/article/view/27941.