[1]

J. Q. L. Chang and V. Y. F. Tan, “A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits”, AAAI, vol. 36, no. 6, pp. 6159-6166, Jun. 2022.