Pulse · AI 뉴스

ComBench: 올림피아드급 조합론 문제 해결 능력 벤치마크

ComBench · 2026-06-09

연구진이 조합론 문제 해결 능력을 평가하는 ComBench 벤치마크를 공개했어요. ComBench는 분석 중심 문제와 구성 중심 문제로 구성되어 있으며, 엄격한 증명과 구조적 통찰력을 요구해요. 최첨단 모델도 올림피아드 조합론에서 한계를 드러내며, Kimi-K2.6는 증명 능력에서 GPT-5.5보다 뒤지지만 구성 능력에서는 앞서기도 해요.

ComBench는 인간이 직접 작성한 100개의 올림피아드급 문제를 포함하며, Rubric 기반 증명 평가와 결정적 구성 검증 프로토콜을 사용해요. 현재 최고 모델은 65.4%의 평균 정확도를 기록하며, ComBench는 아직 포화되지 않았음을 보여줘요.

연구 결과, 엄격한 증명 추론과 구성 실현은 별개의 능력이며, 존재 및 구성 문제는 대부분의 모델에게 여전히 어려운 과제로 나타났어요.

##조합론##벤치마크##LLM##ComBench##Kimi

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기