Pulse · AI 뉴스

WildClawBench: 실제 환경, 장기 과제 평가를 위한 벤치마크

Claude · 2026-05-12

연구진은 실제 환경에서 장기 과제를 수행하는 에이전트 평가를 위한 벤치마크 'WildClawBench'를 발표했어요. 이 벤치마크는 60개의 다국어, 멀티모달 과제를 포함하며, 각 과제는 평균 8분, 20번 이상의 도구 호출을 필요로 합니다.

WildClawBench는 OpenClaw, Claude Code, Codex, Hermes Agent 등 실제 CLI 에이전트 하니스를 사용하며, 모의 서비스 대신 실제 도구에 접근할 수 있도록 설계되었어요. 평가 방식은 규칙 기반 검사, 환경 상태 감사, LLM/VLM 판별법을 결합합니다.

19개의 최첨단 모델을 평가한 결과, Claude Opus 4.7이 62.2%의 성능을 기록했지만, 다른 모델들은 60% 미만의 성능을 보였으며, 하니스 변경만으로도 모델 성능이 최대 18점까지 변동하는 것으로 나타났어요.

##에이전트##벤치마크##WildClawBench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기