DeepSeek-V4는 100만 토큰 컨텍스트를 서빙 시스템 문제로 지적합니다. Together AI는 NVIDIA HGX B200에서 DeepSeek-V4의 추론 작업을 탐구하며 압축된 KV 레이아웃, 프리픽스 캐싱, 커널 성숙도 등을 분석했습니다. 장문 컨텍스트 워크로드를 위한 엔드포인트 프로필을 제시합니다.