[1]

Li, S. et al. 2025. DigitalLLaVA: Incorporating Digital Cognition Capability for Physical World Comprehension in Multimodal LLMs. Proceedings of the AAAI Conference on Artificial Intelligence. 39, 5 (Apr. 2025), 4932–4940. DOI:https://doi.org/10.1609/aaai.v39i5.32522.