MetaAct-RL: Training Language Models for Reasoning Through Meta-Action-Based Reinforcement Learning

Zhiheng Xi; Yuhui Wang; Yiwen Ding; Guanyu Li; Senjie Jin; Shichun Liu; Jixuan Huang; Dingwen Yang; Jiafu Tang; Boyang Hong; Junjie Ye; Shihan Dou; Ming Zhang; Jian Guan; Wei Wu; Rui Zheng; Tao Gui; Qi Zhang; Xuanjing Huang

doi:10.1609/aaai.v40i40.40694

Authors

Zhiheng Xi Fudan University
Yuhui Wang Fudan University
Yiwen Ding Fudan University
Guanyu Li Fudan University
Senjie Jin Fudan University
Shichun Liu Fudan University
Jixuan Huang Fudan University
Dingwen Yang Fudan University
Jiafu Tang Fudan University
Boyang Hong Fudan University
Junjie Ye Fudan University
Shihan Dou Fudan University
Ming Zhang Fudan University
Jian Guan Ant Research
Wei Wu Ant Research
Rui Zheng Fudan University
Tao Gui Fudan University, Shanghai Innovation Institute
Qi Zhang Fudan University, wispaper.ai
Xuanjing Huang Fudan University

DOI:

https://doi.org/10.1609/aaai.v40i40.40694

Abstract

Outcome-based reinforcement learning has made notable advances in training language models (LMs) for reasoning. However, without explicit incentives and controls, this paradigm has limitations and instability in eliciting high-quality reasoning trajectories with diverse actions—particularly for models whose pretraining lacked extensive reasoning-related data. To this end, we introduce MetaAct-RL, a new RL framework that frames LMs’ thinking as sequential decision making over meta-actions. In this framework, the model chooses and executes a high-level action at each step—such as forward reasoning, critique, or refinement—to gradually reach the correct answer. To encourage deeper exploration, richer action diversity, and to improve sampling efficiency in the RL optimization process, MetaAct-RL incorporates appropriate length-based reward and regularization, and a key-state restart mechanism. Extensive experiments across six benchmarks show that MetaAct-RL improves reasoning performance by 7.99 on Llama3.2-1B and 7.17 on Llama3.1-8B relative to vanilla RL method. Moreover, on the challenging AIME-2024, our method outperforms the vanilla RL by 7.5 with Qwen2.5-1.5B.

MetaAct-RL: Training Language Models for Reasoning Through Meta-Action-Based Reinforcement Learning

Authors

DOI:

Abstract

Downloads

Published

How to Cite

Issue

Section

Information