Pulse · AI 뉴스

수학 연구 수준 LLM 평가 벤치마크 'Soohak' 공개: 최고 모델도 30% 미만

Soohak · 2026-05-10

수학 올림피아드 문제 외에 수학 지식 발전에 활용되는 연구 수준의 문제를 푸는 능력을 평가하는 벤치마크 'Soohak'이 공개됐습니다.

Gemini-3-Pro, GPT-5, Claude-Opus-4.5는 Soohak Challenge 세트에서 각각 30.4%, 26.4%, 10.4%의 정확도를 기록했습니다.

Soohak은 문제 해결 능력 외에 문제의 적절성을 판단하고 잘못된 답을 내놓지 않는 '거부' 능력을 평가하는 세트도 포함하고 있습니다.

##LLM##벤치마크##수학##Soohak##평가

매일 핵심 AI 소식을 한국어로, 빠르게