Fan J, Chen P, Li C, Du Q, Chen J, Tan M. NaVLA$^2$: A Vision-Language-Audio-Action Model for Multimodal Instruction Navigation. AAAI [Internet]. 2026 Mar. 14 [cited 2026 May 9];40(22):18234-42. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/38886