Jia W, Lu J, Yu H, Wang S, Tang G, Wang A-L, Yin W, Yang D, Nie Y, Shan B, Feng H, Li I, Yang K, Wang H, Tang J, Fu T, Jin C, Feng C, Lv X, Huang C. MEML-GRPO: Heterogeneous Multi-Expert Mutual Learning for RLVR Advancement. AAAI [Internet]. 2026Mar.14 [cited 2026May3];40(37):31283-91. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/40391