[1]

X. Fang, “Fewer Steps, Better Performance: Efficient Cross-Modal Clip Trimming for Video Moment Retrieval Using Language”, AAAI, vol. 38, no. 2, pp. 1735–1743, Mar. 2024.