사후 훈련된 언어 모델은 기본 모델보다 출력 다양성이 감소하는 현상을 보입니다. 연구진은 Olmo 3 모델의 세 가지 사후 훈련 경로(Think, Instruct, RL-Zero)를 분석하여 훈련 데이터 구성과 다양성 감소 간의 연관성을 확인했습니다. 사후 훈련 과정에서 데이터 구성이 다양성 감소를 결정하며, 추론 시점에만 해결할 수 없다는 점을 밝혀냈습니다.