(1)

Yan, S.; Zhang, R.; Guo, Z.; Chen, W.; Zhang, W.; Li, H.; Qiao, Y.; Dong, H.; He, Z.; Gao, P. Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation. AAAI 2024, 38, 6449-6457.