연구진은 에이전트 검색에서 지식 경계 교정의 어려움을 해결하기 위해 KbSD(Knowledge boundary Self-Distillation) 프레임워크를 제안했어요.
KbSD는 토큰 수준의 밀집 감독, 결과 수준의 희소 보상, 사분면 적응 최적화를 통해 에이전트의 지식 경계를 교정하는 데 도움을 줘요.
KbSD는 지식 경계 신호를 받은 가이드 모델을 활용해 교정된 추론 데모를 생성하고, 사분면 적응 증류 목표를 통해 다양한 지식 상태에서의 추론 분포를 고려해요.