연구진은 대규모 언어 모델 사전 훈련에서 데이터 혼합 선택이 중요하다는 점에 주목했어요. RegMix-D는 기존 RegMix를 확장하여 동적 혼합을 지원하는 새로운 방법론을 제시합니다. 프록시 훈련 과정에서 생성되는 손실 트레일로 회귀 모델을 훈련하여 여러 단계에서 최적의 혼합을 예측합니다.
RegMix-D는 오프라인 및 온라인 두 가지 배포 모드를 지원하며, 오프라인 모드는 전체 혼합 일정을 미리 생성하고 온라인 모드는 훈련 과정에서 손실을 관찰하며 혼합을 조정합니다. 1B 파라미터 모델로 Pile 데이터셋을 사용한 실험에서 13개 downstream 작업에서 RegMix와 DoReMi를 능가하는 성능을 보였어요.
RegMix-D는 프록시 효율성을 유지하면서도 RegMix보다 적은 프록시 모델(128개)로도 우수한 성능을 달성했습니다. 이는 기존 RegMix의 프록시 컴퓨팅 예산의 25%에 불과한 비용으로 가능했어요.