(1)

Wang, H.; Liu, F.; Jiao, L. . .; Wang, J.; Hao, Z.; Li, S.; Li, L.; Chen, P.; Liu, X. ViLT-CLIP: Video and Language Tuning CLIP With Multimodal Prompt Learning and Scenario-Guided Optimization. AAAI 2024, 38, 5390-5400.