Pulse · AI 뉴스

Hopper 시스템에서 DeepSeek v4 Flash의 토큰 처리 속도 193 tok/s 달성 팁

DeepSeek · 2026-06-09

사용자가 Hermes 에이전트 설정을 위해 DeepSeek v4 Flash 모델로 전환했어요. vLLM에서 4개의 스레드를 사용해 월 1조 토큰을 처리하며, 토큰당 비용이 높은 문제를 해결하기 위해 최적화 작업을 진행했어요. 캐나다-퀀트 양자화 방식과 MTP 코드를 패치하여 Hopper 시스템에서 토큰 처리 속도를 193 tok/s로 향상시켰어요.

기존 방식으로는 토큰 처리 비용이 전기 요금보다 높아, vLLM의 MTP 코드를 패치하고 캐나다-퀀트 양자화 방식을 적용하여 비용 효율성을 높였어요.

최적화 결과 DeepSeek v4 Flash 모델의 토큰 처리 속도가 크게 향상되어, Hermes 에이전트 운영 비용을 절감할 수 있게 되었어요.

##DeepSeek##vLLM##최적화##Hopper##에이전트

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기