Pulse · AI 뉴스

DeepSWE: 실제 코딩 작업 성능을 측정하는 새로운 벤치마크 공개

DeepSWE · 2026-06-24

DeepSWE는 기존 벤치마크보다 오염 방지, 다양성 확보, 현실 복잡도 반영, 신뢰성 검증 측면에서 개선된 새로운 벤치마크예요.

91개 리포지토리의 5개 언어를 기반으로 900여 개의 코딩 작업을 생성했으며, 솔루션 코드는 SWE-bench Pro보다 5.5배 많고 토큰은 2배 많아요.

DeepSWE는 오픈 소스로 공개되어 누구나 활용 가능하며, 실제 소프트웨어 엔지니어링 작업 환경에서의 모델 성능을 평가하는 데 기여할 것으로 기대돼요.

##벤치마크##코딩##DeepSWE##오픈소스
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기