Wu, Mingqi, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, et al. 2026. “Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination”. Proceedings of the AAAI Conference on Artificial Intelligence 40 (40):33944-52. https://doi.org/10.1609/aaai.v40i40.40687.