(1)

Schumann, R.; Zhu, W.; Feng, W.; Fu, T.-J.; Riezler, S.; Wang, W. Y. VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View. AAAI 2024, 38, 18924-18933.