연구진은 LLM의 논리적 추론 능력을 평가하기 위해 LogiHard라는 새로운 프레임워크를 제시했습니다. 이 프레임워크는 0차 선택 문제를 2차 논리적 판단으로 변환하여 사고 과정의 복잡성을 높입니다.
LogiHard-2k 데이터셋은 모델의 사고 흔적을 분석하여 고난이도 문제를 조합적으로 변환하여 구축되었으며, 이를 통해 최첨단 모델들의 정확도가 최대 56%까지 하락했습니다.
연구 결과, LLM은 다중 선택 실패와 조기 탈락 편향을 보였으며, 이는 인간 피험자에게서 나타나지 않는 현상입니다.