Yan S, Zhang R, Guo Z, Chen W, Zhang W, Li H, Qiao Y, Dong H, He Z, Gao P. Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation. AAAI [Internet]. 2024Mar.24 [cited 2024Aug.6];38(6):6449-57. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/28465