Gao S, Chen Z, Chen G, Wang W, Lu T. AVSegFormer: Audio-Visual Segmentation with Transformer. AAAI [Internet]. 2024 Mar. 24 [cited 2026 Jul. 25];38(11):12155-63. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/29104