Zhang D, Li C, Zhang R, Xie S, Xue W, Xie X, et al. FM-OV3D: Foundation Model-Based Cross-Modal Knowledge Blending for Open-Vocabulary 3D Detection. AAAI [Internet]. 2024 Mar. 24 [cited 2026 May 26];38(15):16723-31. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/29612