[1]

J. Cao, Q. Zhang, Y. Tang, Z. Xiang, C. Yang, and J. Su, “Augmenting Intra-Modal Understanding in MLLMs for Robust Multimodal Keyphrase Generation”, AAAI, vol. 40, no. 17, pp. 14511–14519, Mar. 2026.