Chen, L. (2026) “Human-Centric Video Generation via Collaborative Multi-Modal Conditioning”, Proceedings of the AAAI Conference on Artificial Intelligence, 40(4), pp. 2939–2947. doi: 10.1609/aaai.v40i4.37285.