Wang H, Liu F, Jiao L, Wang J, Hao Z, Li S, et al. ViLT-CLIP: Video and Language Tuning CLIP with Multimodal Prompt Learning and Scenario-Guided Optimization. AAAI [Internet]. 2024 Mar. 24 [cited 2026 May 25];38(6):5390-40. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/28347