Embodied-BenchClaw는 사용자가 원하는 평가 목표를 기반으로 임베디드 공간 지능 벤치마크를 자동으로 구축하는 시스템이에요.
5단계 파이프라인을 통해 벤치마크 패키지를 생성하며, 계획·구축·평가를 담당하는 3가지 에이전트로 구성돼요.
Skill Library와 품질 관리 시스템을 도입하여 벤치마크의 재사용성, 신뢰성, 유지보수성을 높였어요.
실험 결과, Embodied-BenchClaw는 수동 노력을 줄이면서 검증 가능하고 유용한 벤치마크를 구축할 수 있음을 확인했어요.