[1]

W. Zhu, Y. Wang, H. Li, and P. Zhu, “VTD-CLIP: Video-to-Text Discretization via Prompting CLIP”, AAAI, vol. 40, no. 16, pp. 13979–13987, Mar. 2026.