Zhang, Dongmei, et al. “FM-OV3D: Foundation Model-Based Cross-Modal Knowledge Blending for Open-Vocabulary 3D Detection”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 15, Mar. 2024, pp. 16723-31, doi:10.1609/aaai.v38i15.29612.