연구진이 다중 턴 상호작용 최적화를 위한 새로운 프레임워크 DRIFT(Decoupled Rollouts and Importance-Weighted Fine-Tuning)를 제안했어요. DRIFT는 온라인 강화 학습의 효과와 오프라인 감독 학습의 효율성을 결합한 방식이에요.
참조 정책에서 오프라인 상호작용 트레일로지를 샘플링하고, 반환 기반 중요도 가중치를 파생하여 가중치 SFT를 통해 정책을 최적화해요.
DRIFT는 기존 다중 턴 강화 학습 대비 성능은 유지하면서도 표준 감독 미세 조정의 효율성과 단순성을 제공하는 것으로 입증됐어요.