[1]

Zhao, Y., Wang, Z., Yin, K., Zhang, R., Huang, Z. and Wang, P. 2020. Dynamic Reward-Based Dueling Deep Dyna-Q: Robust Policy Learning in Noisy Environments. Proceedings of the AAAI Conference on Artificial Intelligence. 34, 05 (Apr. 2020), 9676-9684. DOI:https://doi.org/10.1609/aaai.v34i05.6516.