[1]

J. Zhang, M. Cao, X. Yang, K. Jiang, and Y. Li, “DiffCLIP: Few-shot Language-driven Multimodal Classifier”, AAAI, vol. 39, no. 21, pp. 22443-22451, Apr. 2025.