연구진은 25개 LLM과 동등한 수의 인간을 대상으로 4개 언어에서 조건부 추론 능력을 비교 분석했어요. 인간은 언어에 따라 다양한 실용적 추론을 활용하지만, LLM의 행동은 모델마다 달랐어요.
일부 LLM은 조건문 진리표를 완벽하게 따르지만 실용적 추론은 무시하고, 다른 LLM은 진리표에서 벗어나 일관된 해석을 따르는 경향을 보였어요. 이는 규칙 기반 처리 능력은 있지만 인간과 같은 추론 능력은 부족함을 보여줘요.
LLM의 정확도는 공개/폐쇄 여부, 학습 방향, 아키텍처 유형과 무관하게 나타났으며, 이는 실용적 추론이 인공 시스템의 인지 도구에서 여전히 진화하는 능력임을 시사해요.