Fang, Xiang, et al. “Fewer Steps, Better Performance: Efficient Cross-Modal Clip Trimming for Video Moment Retrieval Using Language”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 2, Mar. 2024, pp. 1735-43, doi:10.1609/aaai.v38i2.27941.