(1)

Tu, Y.; Li, L.; Su, L.; Huang, Q. Query-Centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning. AAAI 2025, 39, 7464-7472.