[1]

M. Wu, “Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination”, AAAI, vol. 40, no. 40, pp. 33944–33952, Mar. 2026.