Chen, L., Ma, T., Liu, J., Li, B., Chen, Z., Liu, L., … Wu, Z. (2026). Human-Centric Video Generation via Collaborative Multi-Modal Conditioning. Proceedings of the AAAI Conference on Artificial Intelligence, 40(4), 2939–2947. https://doi.org/10.1609/aaai.v40i4.37285