Pulse · AI 뉴스

DRIFT: 문제 난이도 라우팅 기반 LLM 자체 진화 프레임워크

DRIFT · 2026-06-29

연구진이 LLM의 자체 진화를 위한 온라인 정책 최적화 프레임워크 DRIFT를 제안했어요. DRIFT는 문제 난이도 라우팅과 리듬 게이팅을 통해 모델의 자체 개선 과정을 조절해요. 특히 ToolUse 벤치마크에서 기존 방법 대비 성능을 크게 향상시켜 새로운 최고 기록을 달성했어요.

DRIFT는 문제 수준에서 모델의 학습 상태를 파악하고 자체 증류 및 강화 학습 신호를 동적으로 할당하며, 토큰 수준에서 정책 업데이트를 개선해 중요한 추론 위치에 집중 탐색해요. 성공 버퍼와 2단계 커리큘럼 학습 전략을 통해 고품질 경험을 보존하고 안정적인 정책 진화를 유도해요.

5개 벤치마크에서 GRPO와 SDPO를 능가하는 성능을 보여줬으며, 평균 점수에서 GRPO보다 9.5%, SDPO보다 7.5% 향상된 79.5%를 기록했어요. ToolUse 벤치마크에서는 정확도가 79.2%로 GRPO보다 13.5%, SDPO보다 10.7% 개선됐어요.

##LLM##자체진화##강화학습##ToolUse##DRIFT

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기