(1)

Hung, Y.-H.; Hsieh, P.-C. Reward-Biased Maximum Likelihood Estimation for Neural Contextual Bandits: A Distributional Learning Perspective. AAAI 2023, 37, 7944-7952.