[1]

J. Zhao, “GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning”, AAAI, vol. 40, no. 41, pp. 34932–34940, Mar. 2026.