Pulse · AI 뉴스

DRIFT: 효율적인 다중 턴 최적화를 위한 분리된 롤아웃 및 중요도 가중 미세 조정

DRIFT · 2026-05-29

연구진이 다중 턴 상호작용 최적화를 위한 새로운 프레임워크 DRIFT(Decoupled Rollouts and Importance-Weighted Fine-Tuning)를 제안했어요. DRIFT는 온라인 강화 학습의 효과와 오프라인 감독 학습의 효율성을 결합한 방식이에요.

참조 정책에서 오프라인 상호작용 트레일로지를 샘플링하고, 반환 기반 중요도 가중치를 파생하여 가중치 SFT를 통해 정책을 최적화해요.

DRIFT는 기존 다중 턴 강화 학습 대비 성능은 유지하면서도 표준 감독 미세 조정의 효율성과 단순성을 제공하는 것으로 입증됐어요.

##강화학습##미세조정##LLM##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기