DwarfStar 팀이 분산 추론 성능을 공개했어요. 8개의 A100 GPU에서 70B 모델을 50ms 이내에 처리할 수 있어요. 이는 기존 방식 대비 5배 빠른 속도예요. DwarfStar는 낮은 지연 시간과 높은 처리량을 목표로 설계된 오픈소스 추론 엔진이에요. 팀은 분산 추론을 위한 새로운 최적화 기법을 개발했으며, 이를 통해 성능을 크게 향상시켰다고 설명했어요.