Pulse · AI 뉴스

CombEval: LLM 조합론적 계산 평가 프레임워크

CombEval · 2026-06-18

연구진이 LLM의 조합론적 계산 능력을 평가하는 동적 벤치마크 CombEval을 발표했어요. CombEval은 Cofola 명세를 활용해 자연어 조합론 문제와 정확한 솔버 검증 답변을 생성하며, 기존 벤치마크와 달리 객체 유형, 규모, 제약 조건, 추론 깊이 등을 체계적으로 변경할 수 있어요. 평가 결과 LLM은 순서가 있는 객체, 구별되지 않는 요소, 상대적 위치 제약, 중첩된 객체 의존성에서 취약점을 드러냈어요.

CombEval 코드는 GitHub에서 공개되었으며, LLM의 조합론적 추론 실패 원인을 진단하는 테스트베드로 활용될 예정이에요.

##LLM##조합론##벤치마크##평가##GitHub
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기