Pulse · AI 뉴스

에이전트 기반 소프트웨어 엔지니어링, 기존 코딩 벤치마크와 불일치

arXiv cs.AI · 2026-06-16

기존 코딩 벤치마크는 모델, 하니스, 환경을 묶어 평가하는 방식으로, 에이전트 기반 소프트웨어 엔지니어링 시대에 맞지 않아요.

에이전트는 모델이 아닌 모델, 하니스, 컨텍스트, 환경, 피드백 루프를 결합한 시스템이며, 이 중 하나만으로도 벤치마크 점수에 큰 영향을 미칠 수 있어요.

벤치마크 점수 혼란, 단일 정답에 대한 과도한 의존, 개별 하니스 구성 요소에 대한 피드백 부재가 문제점이에요.

##코딩에이전트##소프트웨어엔지니어링##벤치마크
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기