[1]

Xu, Z. et al. 2026. Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-Based Test Oracles. Proceedings of the AAAI Conference on Artificial Intelligence. 40, 23 (Mar. 2026), 19433–19440. DOI:https://doi.org/10.1609/aaai.v40i23.39021.