[1]

S. Ge, “Implicit Location-Caption Alignment via Complementary Masking for Weakly-Supervised Dense Video Captioning”, AAAI, vol. 39, no. 3, pp. 3113–3121, Apr. 2025.