연구진은 LLM 학습 시 데이터 혼합 최적화 문제를 인과 추론 문제로 접근하는 CausalMix 방법을 제안했어요. 512번의 Qwen2.5-0.5B 실행을 통해 조건부 평균 치료 효과(CATE)를 추정하고, 800K 데이터 풀에 최적의 혼합을 적용하여 7B 모델을 학습했어요. CausalMix는 혼동 변수 편향을 분리하여 데이터 풀 변화에 따라 동적으로 최적의 데이터 혼합을 추론해요.
CausalMix는 RegMix 등 기존 방법보다 다양한 downstream 작업에서 성능을 향상시켰으며, 학습된 혼합 전략에 대한 시각적 분석을 제공하는 CATE 해석기를 활용했어요. CausalMix는 LLM 데이터 혼합 최적화를 위한 인과적이고 해석 가능한 프레임워크를 제공해요.
연구 결과, CausalMix는 기존 데이터 혼합 방법의 한계를 극복하고, 데이터 풀 규모와 모델 크기 확장에 유연하게 대응할 수 있음을 입증했어요.