[1]

H. Jiang, “Granularity-Adaptive Spatial Evidence Tokenization for Video Question Answering”, AAAI, vol. 39, no. 4, pp. 3976-3984, Apr. 2025.