연구진은 복잡한 부가 장치 없이 GRPO와 자체 증류만으로 검색 증강 추론 에이전트의 성능을 향상시키는 Search-E1 방법을 제안했어요. Search-E1은 정책이 자체 질문을 기반으로 추론 과정을 개선하고, 토큰 단위 KL 목표를 통해 효율적인 경로를 학습하는 방식으로 작동해요. 7개의 QA 벤치마크에서 Search-E1은 Qwen2.5-3B 모델로 평균 EM 점수 0.440을 기록하며 기존 오픈소스 모델을 능가했어요.