Tran-Thanh, L., Chapman, A., Munoz de Cote, E., Rogers, A., & Jennings, N. R. (2010). Epsilon–First Policies for Budget–Limited Multi-Armed Bandits. Proceedings of the AAAI Conference on Artificial Intelligence, 24(1), 1211–1216. https://doi.org/10.1609/aaai.v24i1.7758