Pulse · AI 뉴스

SWE-bench Verified, 더 이상 프런티어 코딩 역량 측정 불가능

SWE-bench Verified · 2026-04-27

SWE-bench Verified는 자율 소프트웨어 엔지니어링 작업의 대표 지표였지만, 현재는 프런티어 모델 역량을 제대로 측정하지 못하는 것으로 판단돼요.

최근 최고 성능 향상폭이 74.9%에서 80.9%로 제한되면서, 모델의 한계인지 데이터세트의 문제인지 구분이 어렵게 됐어요.

SWE-bench Verified의 한계를 인정하고, 더 나은 평가 지표 개발이 필요하다는 의견이 나오고 있어요.

##SWE-bench##코딩##벤치마크##모델평가##자율소프트웨어

매일 핵심 AI 소식을 한국어로, 빠르게