Zhao, Yangyang, Zhenyu Wang, Kai Yin, Rui Zhang, Zhenhua Huang, and Pei Wang. 2020. “Dynamic Reward-Based Dueling Deep Dyna-Q: Robust Policy Learning in Noisy Environments”. Proceedings of the AAAI Conference on Artificial Intelligence 34 (05):9676-84. https://doi.org/10.1609/aaai.v34i05.6516.