[1]

T. Zhang, S. He, T. Dai, Z. Wang, B. Chen, and S.-T. Xia, “Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding”, AAAI, vol. 38, no. 7, pp. 7296–7304, Mar. 2024.