연구진은 검색 에이전트가 트랜스크립트를 기반으로 정책을 학습하는 방식이 비효율적이라고 주장했어요. Harness-1은 20B 파라미터 검색 에이전트로, 상태를 관리하는 서치 하니스를 통해 강화 학습을 진행했어요. Harness-1은 웹, 금융, 특허, 멀티홉 QA 벤치마크에서 기존 검색 에이전트보다 평균 11.4% 높은 성능을 기록했어요.