[1]

X. Yuan, L. Zhou, Z. Sun, Z. Zhou, and J. Lan, “Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model”, AAAI, vol. 39, no. 9, pp. 9725–9733, Apr. 2025.