[1]

J. Zhang, K. Cai, J. Yang, J. Wang, C. Tang, and K. Wang, “Top-Down Semantic Refinement for Image Captioning”, AAAI, vol. 40, no. 15, pp. 12591-12599, Mar. 2026.