Pulse · AI 뉴스

LLM 에이전트 연쇄 최적화: 경로 롤아웃에 대한 자체 선호도 활용

RHO · 2026-06-04

연구진은 외부 레이블 데이터 없이 LLM 에이전트의 연쇄를 자체적으로 최적화하는 RHO(Retrospective Harness Optimization) 방법을 제시했어요. RHO는 과거 경로에서 어려운 작업을 추출하여 자체 검증 및 일관성을 통해 후보 연쇄 업데이트를 생성하고 자체적인 쌍대 비교 선호도를 통해 가장 효과적인 업데이트를 선택해요. SWE-Bench Pro에서 단 한 번의 최적화만으로 합격률이 59%에서 78%로 향상됐어요.

RHO는 소프트웨어 엔지니어링, 기술 업무, 지식 업무 등 다양한 분야에서 평가되었으며, 기존 실패 모드를 효과적으로 타겟팅하여 에이전트의 행동 패턴을 변경하고 장기 세션에서 높은 정확도를 유지하는 것으로 나타났어요. 외부 레이블 데이터 없이 자체적으로 연쇄를 개선하는 방식이 핵심이에요.

RHO는 과거 경로에서 추출한 작업들을 병렬로 재해결하고, 자체 검증 및 일관성을 통해 후보 연쇄 업데이트를 생성하는 방식으로 작동하며, 이를 통해 실제 배포 환경에서 유용하게 활용될 수 있을 것으로 기대돼요.

##LLM##에이전트##최적화##RHO##자기지도학습

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기