[1]

Y. Wu, X. Li, J. Liu, J. Gao, and Y. Yang, “Switch-Based Active Deep Dyna-Q: Efficient Adaptive Planning for Task-Completion Dialogue Policy Learning”, AAAI, vol. 33, no. 01, pp. 7289-7296, Jul. 2019.