[1]

W. Wang, “Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models”, AAAI, vol. 39, no. 8, pp. 7907-7915, Apr. 2025.