Pulse · AI 뉴스

SD-Search: 검색 증강 추론을 위한 온-정책 후회 기반 자가 증류

SD-Search · 2026-05-18

연구진은 검색 증강 추론 에이전트의 성능 향상을 위해 SD-Search라는 새로운 방법을 제안했어요.

SD-Search는 정책 자체에서 후회 기반 자가 증류를 통해 단계별 감독 신호를 얻어 외부 교사 모델이나 추가 주석 없이 학습해요.

단일 모델이 학생과 교사 역할을 수행하며, 교사는 검색 쿼리와 최종 결과를 요약한 후회 블록을 추가로 활용하여 정책 자체에서 단계별 신호를 생성해요.

##검색증강##강화학습##자가증류##SD-Search

매일 핵심 AI 소식을 한국어로, 빠르게