사용자가 로컬 모델을 위한 에이전트 하니스 테스트 시스템을 구축 중이에요. 하니스 실행 및 기본 지표 측정은 괜찮지만, 평가 설정을 어떻게 해야 할지 고민 중이에요.
LLM을 평가자로 활용하는 방안을 고려했지만, 대규모 작업에서는 신뢰성이 떨어지고 코드 품질을 평가할 수 있는 모델에 의존하게 된다는 문제가 있어요.
현재 Pi, OpenCode, Claude Code 하니스를 평가하고 있으며, Hermes와 OpenClaw도 추가할 계획이에요. 다른 추천할 만한 하니스가 있나요?