연구진이 오픈클로 스타일 에이전트의 코딩 능력을 평가하는 벤치마크 'Claw-SWE-Bench'를 공개했어요. 이 벤치마크는 다양한 에이전트 하네스를 공정하게 비교하기 위한 통일된 프롬프트, 런타임 예산, 작업 공간 계약 등을 제공해요.
Claw-SWE-Bench는 SWE-bench-Multilingual과 SWE-bench-Verified-Mini를 기반으로 8개 언어, 43개 저장소의 350개 GitHub 이슈 해결 사례를 포함하며, 빠른 검증을 위한 축소 버전인 'Claw-SWE-Bench Lite'도 함께 공개됐어요.
실험 결과, 최소한의 직접 diff 어댑터를 사용한 OpenClaw는 19.1%의 Pass@1 점수를 기록했지만, 풀 어댑터를 사용하면 동일한 GLM 5.1 백본으로 73.4%까지 성능이 향상됐으며, 모델 선택은 Pass@1 점수에 29.4%의 변화를 가져왔어요.
Claw-SWE-Bench는 에이전트 하네스와 비용을 평가 기준으로 삼아, 전체 벤치마크와 저비용 참조 세트를 제공하여 재현 가능한 비교를 지원하며, 데이터는 GitHub와 Hugging Face에서 확인할 수 있어요.