(1)

Xiong, G.; Li, J.; Singh, R. Reinforcement Learning Augmented Asymptotically Optimal Index Policy for Finite-Horizon Restless Bandits. AAAI 2022, 36, 8726-8734.