연구진은 검색 에이전트가 트랜스크립트 기록을 관리하는 방식에 어려움이 있다고 지적했어요. 이를 해결하기 위해 환경 측에서 작업 메모리를 관리하는 'Harness-1'이라는 20B 검색 에이전트를 개발했어요. Harness-1은 웹, 금융, 특허, 멀티홉 QA 등 8가지 검색 벤치마크에서 기존 모델보다 평균 11.4% 높은 성능을 기록했어요.
Harness-1은 검색, 문서 보관, 검증, 중단 시점 결정 등 의미론적 판단을 담당하고, 후보 풀, 중요도 태그, 증거 링크, 검증 기록 등은 환경 측에서 관리해요. 특히 이 모델은 기존 학습 영역을 벗어난 전이 벤치마크에서 강점을 보였어요.
코드 공개는 GitHub에서 확인할 수 있어요.