Pulse · AI 뉴스

Harness-1: 검색 에이전트의 강화 학습

Harness-1 · 2026-06-01

연구진은 검색 에이전트가 트랜스크립트를 기반으로 정책을 학습하는 방식이 비효율적이라고 주장했어요.

Harness-1은 20B 파라미터 검색 에이전트로, 상태를 관리하는 서치 하니스를 통해 강화 학습을 진행했어요.

Harness-1은 웹, 금융, 특허, 멀티홉 QA 벤치마크에서 기존 검색 에이전트보다 평균 11.4% 높은 성능을 기록했어요.

##검색에이전트##강화학습##Harness-1
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기