Zhou, Ziqin, et al. “HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation With Autoregressive Large Language Models”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 40, no. 16, Mar. 2026, pp. 13898-06, doi:10.1609/aaai.v40i16.38399.