본 연구는 온라인 모방 학습이 LLM 추가 훈련에 효과적인 이유를 분석했어요. 기존의 오류 축적 가설 대신, 학생 정책 클래스가 전문가 정책을 표현할 수 있는지 여부, 즉 실현 가능성이 핵심 요인임을 밝혀냈어요. 실현 가능한 환경에서는 오프라인 모방 학습만으로도 전문가 수준의 성능을 낼 수 있지만, 실현 불가능한 환경에서는 온라인 상호작용이 정보 이론적 병목 현상을 해결하고 높은 성능을 달성할 수 있어요.
오프라인 모방 학습은 실현 가능한 환경에서 전문가 수준의 성능을 낼 수 있지만, 실현 불가능한 환경에서는 온라인 상호작용이 필요해요. 연구진은 온라인 모방 학습이 큰 분포 불일치에도 불구하고 높은 성능을 달성하는 구조적 특징을 규명했어요.
본 연구는 LLM 추가 훈련 전략 수립에 중요한 시사점을 제공하며, 실현 가능성 여부에 따른 학습 방법 선택의 중요성을 강조해요.