[1]

P. Guo, H. Huang, P. He, X. Liu, T. Xiao, and W. Zhang, “OpenVIS: Open-vocabulary Video Instance Segmentation”, AAAI, vol. 39, no. 3, pp. 3275–3283, Apr. 2025.