[1]

L. Liu, “Do Large Language Models Reason About Uncertainty Like Humans? A Benchmark on Hurricane Forecast Visualization Comprehension”, AAAI, vol. 40, no. 21, pp. 17571–17579, Mar. 2026.