Pulse · AI 뉴스

Search-E1: 자체 증류 기반의 검색 증강 추론 자체 진화

Qwen · 2026-05-21

연구진은 복잡한 부가 장치 없이 GRPO와 자체 증류만으로 검색 증강 추론 에이전트의 성능을 향상시키는 Search-E1 방법을 제안했어요.

Search-E1은 정책이 자체 질문을 기반으로 추론 과정을 개선하고, 토큰 단위 KL 목표를 통해 효율적인 경로를 학습하는 방식으로 작동해요.

7개의 QA 벤치마크에서 Search-E1은 Qwen2.5-3B 모델로 평균 EM 점수 0.440을 기록하며 기존 오픈소스 모델을 능가했어요.

##검색증강##자체진화##GRPO##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게