Pulse · AI 뉴스

사후 훈련 시 출력 다양성 감소는 어디에서 발생하는가?

Olmo · 2026-04-17

사후 훈련된 언어 모델은 기본 모델보다 출력 다양성이 감소하는 현상을 보입니다.

연구진은 Olmo 3 모델의 세 가지 사후 훈련 경로(Think, Instruct, RL-Zero)를 분석하여 훈련 데이터 구성과 다양성 감소 간의 연관성을 확인했습니다.

사후 훈련 과정에서 데이터 구성이 다양성 감소를 결정하며, 추론 시점에만 해결할 수 없다는 점을 밝혀냈습니다.

##모델출시##사후훈련##언어모델

매일 핵심 AI 소식을 한국어로, 빠르게