[1]

X. Wang, Y. Song, Z. Tian, B. Liu, T. Luo, and M. Huang, “DPRM: A Dual Implicit Process Reward Model in Multi-Hop Question Answering”, AAAI, vol. 40, no. 40, pp. 33683–33691, Mar. 2026.