SWE-bench Verified는 AI 모델이 실제 소프트웨어 문제를 해결하는 능력을 더욱 신뢰성 있게 평가하기 위해 인간이 검증한 데이터 세트입니다. 기존 SWE-bench 데이터 세트의 신뢰성 문제를 개선하기 위해 개발되었으며, AI 모델 성능 평가의 정확도를 높이는 데 기여합니다. SWE-bench Verified를 통해 AI 모델의 실질적인 소프트웨어 개발 역량을 보다 명확하게 파악할 수 있게 되었습니다.