(1)

Henderson, P.; Chang, W.-D.; Bacon, P.-L.; Meger, D.; Pineau, J.; Precup, D. OptionGAN: Learning Joint Reward-Policy Options Using Generative Adversarial Inverse Reinforcement Learning. AAAI 2018, 32.