연구진이 오픈클로 스타일 에이전트의 코딩 능력을 평가하는 벤치마크 'Claw-SWE-Bench'를 공개했어요. 이 벤치마크는 다양한 에이전트 하네스를 공정하게 비교하기 위해 통일된 프롬프트, 런타임 예산, 작업 공간 계약 등을 제공합니다.
Claw-SWE-Bench는 SWE-bench-Multilingual 및 SWE-bench-Verified-Mini에서 파생된 350개의 GitHub 이슈 해결 사례를 포함하며, 빠른 검증을 위한 축소 버전인 'Claw-SWE-Bench Lite'도 함께 공개됐어요.
실험 결과, 최소한의 어댑터를 사용한 OpenClaw는 19.1%의 Pass@1 점수를 기록했지만, 풀 어댑터를 사용하면 동일한 GLM 5.1 백본으로 73.4%까지 성능이 향상돼 어댑터 설계의 중요성을 보여줬어요.