(1)

Fan, J.; Chen, P.; Li, C.; Du, Q.; Chen, J.; Tan, M. NaVLA$^2$: A Vision-Language-Audio-Action Model for Multimodal Instruction Navigation. AAAI 2026, 40, 18234-18242.