Reddit 사용자가 StrixHalo에 듀얼 3090을 NVLink로 연결하여 LLM 성능을 향상시키는 방법을 공유했어요. 이를 통해 27B 또는 31B 모델을 더 원활하게 실행할 수 있어요.
NVLink를 통해 GPU 간 대역폭을 개선하여 작은 모델에서 초당 처리량(PP/s)과 토큰 생성량(TG/s)을 최대 3배까지 향상시킬 수 있으며, 멀티 코딩 에이전트 시나리오에 유용해요.
vLLM에서 KV 캐시 유형에 따라 컨텍스트 길이와 동시 요청 수 외에도 속도가 크게 달라지며, 27B 모델에서는 eGPU에서 더 나은 PP/s와 TG/s를 얻을 수 있지만 122B 모델에서는 StrixHalo에서 더 효율적이에요.