(1)

Jia, M.; Meng, W.; Fu, Z.; Li, Y.; Zeng, Q.; Zhang, Y.; Xin, J.; Xu, R.; Zhang, J.; Zhang, X. Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction. AAAI 2026, 40, 5341-5349.