[1]

S. Yan, “Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation”, AAAI, vol. 38, no. 6, pp. 6449-6457, Mar. 2024.