[1]

J. Wei, “ST-SAM: Multimodal Scene Text Segmentation with Dense Visual and Sparse Textual Prompts via SAM”, AAAI, vol. 40, no. 13, pp. 10530–10538, Mar. 2026.