Hung, Y.-H., & Hsieh, P.-C. (2023). Reward-Biased Maximum Likelihood Estimation for Neural Contextual Bandits: A Distributional Learning Perspective. Proceedings of the AAAI Conference on Artificial Intelligence, 37(7), 7944-7952. https://doi.org/10.1609/aaai.v37i7.25961