연구진은 LLM 학습 시 데이터 혼합 최적화 문제를 인과 추론 문제로 접근하는 CausalMix를 제안했어요. CausalMix는 데이터 풀의 통계적 특징을 변수로, 데이터 혼합을 처치 변수로 간주하여 최적의 혼합 비율을 추정해요. 512번의 Qwen2.5-0.5B 실행을 통해 인과 모델을 학습하고, 800K 데이터 풀에 최적화된 혼합 비율을 적용하여 7B 모델을 학습했어요.
CausalMix는 장황한 사고(chain-of-thought) 데이터에도 적용 가능하며, 다양한 downstream 작업에서 RegMix 등 기존 방법보다 성능이 우수했어요. CausalMix는 혼합 전략을 시각적으로 분석할 수 있는 CATE 인터프리터를 제공하여 해석 가능성을 높였어요.
CausalMix는 LLM 데이터 혼합 최적화를 위한 인과적이고 해석 가능한 프레임워크를 제공하며, 데이터 풀 변화에 유연하게 대응할 수 있다는 장점이 있어요.