[1]

D. Li, “You Only Infer Once: Cross-Modal Meta-Transfer for Referring Video Object Segmentation”, AAAI, vol. 36, no. 2, pp. 1297-1305, Jun. 2022.