[1]

X. Zhong, Z. Li, S. Chen, K. Jiang, C. Chen, and M. Ye, “Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning”, AAAI, vol. 37, no. 3, pp. 3724–3732, Jun. 2023.