DeepSeek가 1.6T 파라미터의 DeepSeek-V4-Pro와 284B 파라미터의 DeepSeek-V4-Flash 모델을 공개하며, 두 모델 모두 100만 토큰 컨텍스트 윈도우를 지원합니다.
V4는 긴 컨텍스트 길이에 대한 효율적인 인퍼런스를 가능하게 하여 에이전트 작업에 최적화되었으며, 기존 모델 대비 단일 토큰 인퍼런스 FLOPs를 27% 줄이고 KV 캐시 메모리 사용량을 10% 감소시켰습니다.
새로운 아키텍처는 CSA(Compressed Sparse Attention)와 HCA(Heavily Compressed Attention)를 결합하여 효율성을 높였으며, 도구 사용 추론 과정을 보존하고 XML 기반의 도구 호출 스키마를 도입하여 에이전트 사용성을 개선했습니다.