Reddit 사용자가 120B LLM을 64K 컨텍스트로 10토큰/초 이상 실행하는 가장 저렴한 하드웨어 구성을 문의했어요. CPU만으로는 고성능 워크스테이션과 128GB DDR5 RAM이 필요하며, GPU만으로는 120GB VRAM이 필요해요. 혼합 방식이 현실적인 대안일 수 있어요.
Q5 또는 Q6 양자화 모델을 사용하며, RPG 캠페인용 고급 롤플레잉을 목표로 하고 있어요. 빠른 응답을 위해 많은 변형을 생성할 계획이에요.
Reddit 사용자는 CPU만으로는 성능이 부족하고, GPU만으로는 비용이 너무 높으며, 혼합 방식이 가장 현실적인 대안이라고 생각해요.