Pulse · AI 뉴스

훈련 중 제로 변동 쿼리 재활용으로 에이전트 검색 강화하는 효과적인 강화 학습

OpenAI · 2026-06-09

연구진은 GRPO 알고리즘 기반 LLM 검색 에이전트 훈련 시, 정책 변화에 따라 쿼리가 제로 변동 상태와 신호 상태를 오갈 수 있다는 점에 주목했어요.

제로 변동 쿼리를 재활용하여 훈련 데이터 분포를 정책과 함께 진화시키는 ‘쿼리 재활용’ 기법을 제안하여, 1.7B 파라미터 모델이 7B 파라미터 모델 수준의 성능을 달성했어요.

재활용된 쿼리는 훈련 종료 시 효과적인 배치 데이터의 3/4를 담당하며, 정책 개선 회복과 정책 드리프트에 기여하는 것으로 분석됐어요.

##강화학습##LLM##에이전트##쿼리

매일 핵심 AI 소식을 한국어로, 빠르게