Pulse · AI 뉴스

듀얼 GPU llama.cpp 속도 향상

llama.cpp · 2026-05-17

RedToasty가 llama.cpp의 `--split-mode tensor` 문제를 해결하는 브랜치를 공개했어요. 이 브랜치는 텐서 병렬을 지원하며, KV 캐시를 양자화할 수 있도록 수정되었어요.

3060 12GB + 4070 Super 12GB 조합으로 테스트한 결과, 'write a story' 스타일 컨텍스트에서 토큰 생성 속도가 약 25tps에서 40tps로 향상되었어요.

듀얼 5060 Ti 또는 유사한 환경에서 테스트한 사용자들의 피드백을 환영하며, Vulkan 환경에서의 사용기도 관심 있어요.

##llama.cpp##텐서병렬##GPU

매일 핵심 AI 소식을 한국어로, 빠르게