[1]

H. Wang, “ViLT-CLIP: Video and Language Tuning CLIP with Multimodal Prompt Learning and Scenario-Guided Optimization”, AAAI, vol. 38, no. 6, pp. 5390–5400, Mar. 2024.