[1]

W. Song, “ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver”, AAAI, vol. 40, no. 22, pp. 18549–18557, Mar. 2026.