사용자가 Hermes 에이전트 설정을 위해 DeepSeek v4 Flash 모델로 전환했어요. vLLM에서 4개의 스레드를 사용해 월 1조 토큰을 처리하며, 토큰당 비용이 높은 문제를 해결하기 위해 최적화 작업을 진행했어요. 캐나다-퀀트 양자화 방식과 MTP 코드를 패치하여 Hopper 시스템에서 토큰 처리 속도를 193 tok/s로 향상시켰어요.
기존 방식으로는 토큰 처리 비용이 전기 요금보다 높아, vLLM의 MTP 코드를 패치하고 캐나다-퀀트 양자화 방식을 적용하여 비용 효율성을 높였어요.
최적화 결과 DeepSeek v4 Flash 모델의 토큰 처리 속도가 크게 향상되어, Hermes 에이전트 운영 비용을 절감할 수 있게 되었어요.