Zhao J, Liu R, Zhang K, Zhou Z, Gao J, Li D, et al. GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning. AAAI [Internet]. 2026 Mar. 14 [cited 2026 May 25];40(41):34932-40. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/40797