[1]

J. Cao, Y. Hu, Z. Tan, and X. Zhao, “Cross-modal Multi-task Learning for Multimedia Event Extraction”, AAAI, vol. 39, no. 11, pp. 11454–11462, Apr. 2025.