DeepSWE는 기존 벤치마크보다 오염 방지, 다양성 확보, 현실 복잡도 반영, 신뢰성 검증 측면에서 개선된 새로운 벤치마크예요. 91개 리포지토리의 5개 언어를 기반으로 900여 개의 코딩 작업을 생성했으며, 솔루션 코드는 SWE-bench Pro보다 5.5배 많고 토큰은 2배 많아요. DeepSWE는 오픈 소스로 공개되어 누구나 활용 가능하며, 실제 소프트웨어 엔지니어링 작업 환경에서의 모델 성능을 평가하는 데 기여할 것으로 기대돼요.