Pulse · AI 뉴스

Claw-SWE-Bench: 오픈클로 스타일 에이전트 코딩 능력 평가 벤치마크

OpenClaw · 2026-06-10

연구진이 오픈클로 스타일 에이전트의 코딩 능력을 평가하는 벤치마크 'Claw-SWE-Bench'를 공개했어요. 이 벤치마크는 다양한 에이전트 하네스를 공정하게 비교하기 위한 통일된 프롬프트, 런타임 예산, 작업 공간 계약 등을 제공해요.

Claw-SWE-Bench는 SWE-bench-Multilingual과 SWE-bench-Verified-Mini를 기반으로 8개 언어, 43개 저장소의 350개 GitHub 이슈 해결 사례를 포함하며, 빠른 검증을 위한 축소 버전인 'Claw-SWE-Bench Lite'도 함께 공개됐어요.

실험 결과, 최소한의 직접 diff 어댑터를 사용한 OpenClaw는 19.1%의 Pass@1 점수를 기록했지만, 풀 어댑터를 사용하면 동일한 GLM 5.1 백본으로 73.4%까지 성능이 향상됐으며, 모델 선택은 Pass@1 점수에 29.4%의 변화를 가져왔어요.

Claw-SWE-Bench는 에이전트 하네스와 비용을 평가 기준으로 삼아, 전체 벤치마크와 저비용 참조 세트를 제공하여 재현 가능한 비교를 지원하며, 데이터는 GitHub와 Hugging Face에서 확인할 수 있어요.

##에이전트##벤치마크##오픈소스
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기