연구진이 LLM의 조합론적 계산 능력을 평가하는 동적 벤치마크 CombEval을 발표했어요. CombEval은 Cofola 명세를 활용해 자연어 조합론 문제와 정확한 솔버 검증 답변을 생성하며, 기존 벤치마크와 달리 객체 유형, 규모, 제약 조건, 추론 깊이 등을 체계적으로 변경할 수 있어요. 평가 결과 LLM은 순서가 있는 객체, 구별되지 않는 요소, 상대적 위치 제약, 중첩된 객체 의존성에서 취약점을 드러냈어요.
CombEval 코드는 GitHub에서 공개되었으며, LLM의 조합론적 추론 실패 원인을 진단하는 테스트베드로 활용될 예정이에요.