기존 코딩 벤치마크는 모델, 하니스, 환경을 묶어 평가하는 방식으로, 에이전트 기반 소프트웨어 엔지니어링 시대에 맞지 않아요. 에이전트는 모델이 아닌 모델, 하니스, 컨텍스트, 환경, 피드백 루프를 결합한 시스템이며, 이 중 하나만으로도 벤치마크 점수에 큰 영향을 미칠 수 있어요. 벤치마크 점수 혼란, 단일 정답에 대한 과도한 의존, 개별 하니스 구성 요소에 대한 피드백 부재가 문제점이에요.