[1]

R. Schumann, W. Zhu, W. Feng, T.-J. Fu, S. Riezler, and W. Y. Wang, “VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View”, AAAI, vol. 38, no. 17, pp. 18924–18933, Mar. 2024.