RealClawBench는 실제 OpenClaw 세션을 기반으로 구축된 새로운 벤치마크 프레임워크입니다. 기존 벤치마크가 현실적인 사용 환경을 제대로 반영하지 못하는 문제를 해결하기 위해 개발됐어요.
재현 가능한 실행 환경과 검증 가능한 점수 시스템을 통해 실제 세션을 재현 가능한 작업으로 변환하며, 281개의 실행 가능한 작업이 포함된 데이터셋을 공개했어요.
14개 모델 평가 결과, 최고 성능 모델도 65.8%의 작업만 해결하여 실제 개발자-에이전트 워크로드에서 개선 여지가 큼을 보여줬습니다.