Xi, Z., Y. Wang, Y. Ding, G. Li, S. Jin, S. Liu, J. Huang, D. Yang, J. Tang, B. Hong, J. Ye, S. Dou, M. Zhang, J. Guan, W. Wu, R. Zheng, T. Gui, Q. Zhang, and X. Huang. “MetaAct-RL: Training Language Models for Reasoning Through Meta-Action-Based Reinforcement Learning”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 40, no. 40, Mar. 2026, pp. 34006-15, doi:10.1609/aaai.v40i40.40694.