Yu, Yating, Congqi Cao, Yueran Zhang, Qinyi Lv, Lingtong Min, and Yanning Zhang. 2025. “Building a Multi-Modal Spatiotemporal Expert for Zero-Shot Action Recognition With CLIP”. Proceedings of the AAAI Conference on Artificial Intelligence 39 (9):9689-97. https://doi.org/10.1609/aaai.v39i9.33050.