(1)

Omura, M.; Osa, T.; Mukuta, Y.; Harada, T. Symmetric Q-Learning: Reducing Skewness of Bellman Error in Online Reinforcement Learning. AAAI 2024, 38, 14474-14481.