Tran-Thanh, L., Chapman, A., Rogers, A., & Jennings, N. (2021). Knapsack Based Optimal Policies for Budget–Limited Multi–Armed Bandits. Proceedings of the AAAI Conference on Artificial Intelligence, 26(1), 1134-1140. https://doi.org/10.1609/aaai.v26i1.8279