[1]

M. Jia, “Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction”, AAAI, vol. 40, no. 7, pp. 5341–5349, Mar. 2026.