[1]

R. Zhang, “MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation”, AAAI, vol. 40, no. 22, pp. 18764–18772, Mar. 2026.