[1]

W. Wen, C. Xue, S. Pan, Y. Sun, and M. Peng, “Reinforcement Learning Enhanced Muti-hop Reasoning for Temporal Knowledge Question Answering”, AAAI, vol. 40, no. 40, pp. 33881–33889, Mar. 2026.