LLMEval-Logic은 LLM의 논리 추론 능력을 평가하기 위해 제작된 중국어 벤치마크입니다. 기존 벤치마크의 한계를 극복하기 위해 실제 상황을 기반으로 자연어 항목과 참조 형식화를 함께 작성하고, 전문가 심사를 거쳤습니다.
Z3를 사용하여 답변을 검증하고, 자연어-형식화 등급을 위한 전문가 기준을 구축하며, adversarial 워크플로우를 통해 난이도를 높였습니다. Base와 Hard 두 가지 하위 집합으로 구성되어 있으며, Hard 하위 집합은 모델의 성능을 더욱 엄격하게 평가합니다.
14개의 최첨단 LLM을 평가한 결과, 최고 성능 모델도 Hard Item 정확도가 37.5%에 불과했으며, Z3+Rubric 공식화 점수도 60.16%에 그쳐 LLM의 논리 추론 능력에 상당한 격차가 있음을 보여주었습니다.