Yu Y, Cao C, Zhang Y, Lv Q, Min L, Zhang Y. Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP. AAAI [Internet]. 2025 Apr. 11 [cited 2026 Jul. 11];39(9):9689-97. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/33050