(1)

Wang, X.; Song, Y.; Tian, Z.; Liu, B.; Luo, T.; Huang, M. DPRM: A Dual Implicit Process Reward Model in Multi-Hop Question Answering. AAAI 2026, 40, 33683-33691.