Lu Y, Sun S, Liu N, Jiang B, Zhang Y, Chen J, Du C. STEP-Nav: Spatial-Temporal Efficient Visual Token Pruning for Vision-and-Language Navigation with Large Language Models. AAAI [Internet]. 2026Mar.14 [cited 2026May3];40(29):24097-105. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/39588