Tencent에서 DFlash의 병목 현상을 개선한 DFlare를 발표했어요. 각 초안 레이어가 다양한 타겟 레이어에 주목하도록 하여 레이어별 표현력을 높였어요.
DFlare는 초안 모델의 용량을 확장하여 Qwen3-4B에서 최대 5.52배, Qwen3-8B에서 5.46배, GPT-OSS-20B에서 3.91배의 속도 향상을 달성했어요.
학습 데이터 규모를 800K에서 2.4M 샘플로 늘려 초안 모델의 용량을 최대한 활용하고, 수학적 추론, 코드 생성, 대화 벤치마크에서 성능을 개선했어요.