Pulse · AI 뉴스

LLMEval-Logic: LLM의 논리 추론 평가를 위한 중국어 벤치마크

LLMEval-Logic · 2026-05-19

LLMEval-Logic은 LLM의 논리 추론 능력을 평가하기 위해 제작된 중국어 벤치마크입니다. 기존 벤치마크의 한계를 극복하기 위해 실제 상황 기반 시나리오를 활용하고, 전문가 검수 및 Z3 검증을 거쳤습니다.

벤치마크는 Base(246개)와 Hard(190개) 두 세트로 구성되며, Hard 세트는 다단계 추론을 요구하는 난이도 높은 문제들로 이루어져 있습니다.

14개의 최첨단 LLM을 평가한 결과, 최고 성능 모델조차 Hard 세트에서 37.5%의 정확도를 기록하며, 현재 모델의 논리 추론 능력에 여지가 있음을 보여주었습니다.

##LLM##논리추론##벤치마크##중국어##LLMEval-Logic
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기