Liu, W., Huo, L., Jing, Y., Zhang, X., & Xie, J. (2026). MRACL: Multi-Reward Space Guided Adaptive Curriculum Reinforcement Learning for LLMs. Proceedings of the AAAI Conference on Artificial Intelligence, 40(44), 37663–37672. https://doi.org/10.1609/aaai.v40i44.41101