Xu, Zihao, Junchen Ding, Yiling Lou, Kun Zhang, Dong Gong, and Yuekang Li. 2026. “Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models With Logic Programming-Based Test Oracles”. Proceedings of the AAAI Conference on Artificial Intelligence 40 (23):19433-40. https://doi.org/10.1609/aaai.v40i23.39021.