[1]

C. Liu, “TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models”, AAAI, vol. 40, no. 22, pp. 18452–18459, Mar. 2026.