Zhao, Y., Wang, Z., Yin, K., Zhang, R., Huang, Z. and Wang, P. (2020) “Dynamic Reward-Based Dueling Deep Dyna-Q: Robust Policy Learning in Noisy Environments”, Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), pp. 9676-9684. doi: 10.1609/aaai.v34i05.6516.