[1]

K. Wang, L. Xu, A. Taneja, and M. Tambe, “Optimistic Whittle Index Policy: Online Learning for Restless Bandits”, AAAI, vol. 37, no. 8, pp. 10131-10139, Jun. 2023.