Pulse · AI 뉴스

TestEvo-Bench: 테스트와 코드 공동 진화 벤치마크 공개

TestEvo-Bench · 2026-07-03

연구진이 테스트와 코드의 공동 진화를 평가하는 벤치마크 TestEvo-Bench를 공개했어요. 이 벤치마크는 테스트 생성과 업데이트 두 가지 트랙으로 구성돼 있으며, 실제 소프트웨어 저장소에서 추출한 작업들을 포함하고 있어요. TestEvo-Bench는 모델의 데이터 유출 위험을 줄이기 위해 주기적으로 새로운 작업들을 추가하는 라이브 벤치마크로 운영돼요.

Claude Opus 4.7과 Gemini 3.1 Pro를 활용한 4가지 최첨단 에이전트를 실험한 결과, 테스트 생성에서 최대 77.5%, 테스트 업데이트에서 74.6%의 성공률을 기록했어요. 하지만 최신 벤치마크 작업에서는 성공률이 현저히 낮아지고, 작업당 비용 제한 시 더욱 감소하는 경향을 보였어요.

TestEvo-Bench는 총 746개의 테스트 생성 작업과 509개의 테스트 업데이트 작업으로 구성되어 있으며, 152개의 오픈소스 Java 프로젝트에서 추출된 59,950개의 후보 공동 진화 기록에서 선정됐어요.

##테스트##코드##벤치마크##TestEvo-Bench##AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기