Zhao, Y., Wang, Z., Yin, K., Zhang, R., Huang, Z., & Wang, P. (2020). Dynamic Reward-Based Dueling Deep Dyna-Q: Robust Policy Learning in Noisy Environments. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 9676-9684. https://doi.org/10.1609/aaai.v34i05.6516