[1]

J. Chen, H. Li, Z. Tang, X. Li, W. Wu, and S. Liu, “AerialVLA: A Vision-Language-Action Model for Aerial Navigation with Online Dialogue”, AAAI, vol. 40, no. 22, pp. 18161–18169, Mar. 2026.