Yuan, D., Chen, Y., Liu, G., Li, C., Tang, C., Zhang, D., … Liu, S. (2025). DMT-RoleBench: A Dynamic Multi-Turn Dialogue Based Benchmark for Role-Playing Evaluation of Large Language Model and Agent. Proceedings of the AAAI Conference on Artificial Intelligence, 39(24), 25760–25768. https://doi.org/10.1609/aaai.v39i24.34768