Pulse · AI 뉴스

GRPO 훈련 시 부정적 이점, 양날의 검: 심층 검색을 위한 CalibAdv

arXiv cs.CL · 2026-04-20

심층 검색 에이전트는 검색 엔진과의 다중 턴 상호 작용을 통해 강력한 질문 답변 능력을 보여줍니다.

연구진은 GRPO 훈련 알고리즘의 문제점인 중간 단계의 정확성과 보상 신호 간의 불일치, 불안정한 훈련 문제를 분석했습니다.

CalibAdv는 심층 검색 작업에 맞춰 설계된 이점 보정 방법으로, 부정적 이점을 세분화하고 긍정적/부정적 이점을 재조정하여 성능과 훈련 안정성을 향상시킵니다.

##심층검색##GRPO##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게