Omura M, Osa T, Mukuta Y, Harada T. Symmetric Q-learning: Reducing Skewness of Bellman Error in Online Reinforcement Learning. AAAI [Internet]. 2024Mar.24 [cited 2024Sep.1];38(13):14474-81. Available from: https://ojs.aaai.org/index.php/AAAI/article/view/29362