연구진은 검색 증강 추론 에이전트의 성능 향상을 위해 SD-Search라는 새로운 방법을 제안했어요. SD-Search는 정책 자체에서 후회 기반 자가 증류를 통해 단계별 감독 신호를 얻어 외부 교사 모델이나 추가 주석 없이 학습해요. 단일 모델이 학생과 교사 역할을 수행하며, 교사는 검색 쿼리와 최종 결과를 요약한 후회 블록을 추가로 활용하여 정책 자체에서 단계별 신호를 생성해요.