DeepSeek V4 기술 보고서에서 CSA+HCA 하이브리드 어텐션, Manifold-Constrained Hyper-Connections 등 새로운 아키텍처를 선보였어요.
기존 트랜스포머의 잔여 연결 방식을 개선한 Manifold-Constrained Hyper-Connections를 적용하여 학습 안정성을 확보했어요.
V4-Flash와 커뮤니티 Distillation을 통해 DeepSeek V4를 더 쉽게 사용할 수 있을 것으로 기대돼요.