Pulse · AI 뉴스

DRIFT: 효율적인 다중 회전 최적화를 위한 분리된 롤아웃 및 중요도 가중 미세 조정

DRIFT · 2026-05-30

연구진이 다중 회전 상호작용 환경에서 LLM 최적화 문제를 해결하기 위해 DRIFT(Decoupled Rollouts and Importance-Weighted Fine-Tuning) 프레임워크를 제안했어요.

DRIFT는 오프라인 상호작용 트레이커리에서 중요도 가중치를 파생하고 가중치 SFT를 통해 정책을 최적화하여 롤아웃과 최적화를 분리하는 방식이에요.

실험 결과, DRIFT는 기존 다중 회전 강화 학습 대비 성능은 유지하면서 표준 SFT의 효율성과 단순성을 확보했어요.

##LLM##강화학습##미세조정##DRIFT

매일 핵심 AI 소식을 한국어로, 빠르게