[1]

D. Zhang, “FM-OV3D: Foundation Model-Based Cross-Modal Knowledge Blending for Open-Vocabulary 3D Detection”, AAAI, vol. 38, no. 15, pp. 16723–16731, Mar. 2024.