Zhao, Y., Z. Wang, K. Yin, R. Zhang, Z. Huang, and P. Wang. “Dynamic Reward-Based Dueling Deep Dyna-Q: Robust Policy Learning in Noisy Environments”. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, no. 05, Apr. 2020, pp. 9676-84, doi:10.1609/aaai.v34i05.6516.