Wei, Jin, et al. “ST-SAM: Multimodal Scene Text Segmentation With Dense Visual and Sparse Textual Prompts via SAM”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 40, no. 13, Mar. 2026, pp. 10530-8, doi:10.1609/aaai.v40i13.38025.