[1]

Z. Xu, J. Ding, Y. Lou, K. Zhang, D. Gong, and Y. Li, “Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-Based Test Oracles”, AAAI, vol. 40, no. 23, pp. 19433–19440, Mar. 2026.