[1]

H. Li, “Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling”, AAAI, vol. 40, no. 22, pp. 18388–18396, Mar. 2026.