[1]

J. Fan, P. Chen, C. Li, Q. Du, J. Chen, and M. Tan, “NaVLA$^2$: A Vision-Language-Audio-Action Model for Multimodal Instruction Navigation”, AAAI, vol. 40, no. 22, pp. 18234–18242, Mar. 2026.