연구진이 DeepSeek-V4의 MHC 아키텍처에 최적화된 블록 추론 가속화 프레임워크 HyperDFlash를 발표했어요. 기존 MTP 모듈의 낮은 정확도 문제를 해결하기 위해 사전 병합 잔여 상태를 활용하고 경량 게이티드 잔여 감소기를 적용했어요. KL 증류 손실을 통해 초반 학습 단계에서 초안 품질을 개선하고 다양한 벤치마크에서 기존 방식보다 뛰어난 성능을 입증했어요.
HyperDFlash는 평균 초안 길이와 디코딩 속도 모두에서 상당한 향상을 보여줬으며, MHC 정렬, 게이티드 감소, 타겟 증류의 효과를 입증했어요. DeepSeek-V4의 다중 하이퍼 연결(MHC) 아키텍처의 특징을 반영하여 기존 DFlash 방식의 한계를 극복했어요. 연구 결과는 수학 추론, 코드 합성, 대화형 벤치마크에서 확인 가능해요.
HyperDFlash는 기존 MTP 기반 방식과 일반적인 DFlash 적용 방식 모두를 능가하는 성능을 보여주며, 모델에 맞춘 최적화의 중요성을 강조했어요. 향후 LLM 추론 가속화 연구에 기여할 것으로 기대돼요.