RedToasty가 llama.cpp의 `--split-mode tensor` 문제를 해결하는 브랜치를 공개했어요. 이 브랜치는 텐서 병렬을 지원하며, KV 캐시를 양자화할 수 있도록 수정되었어요.
3060 12GB + 4070 Super 12GB 조합으로 테스트한 결과, 'write a story' 스타일 컨텍스트에서 토큰 생성 속도가 약 25tps에서 40tps로 향상되었어요.
듀얼 5060 Ti 또는 유사한 환경에서 테스트한 사용자들의 피드백을 환영하며, Vulkan 환경에서의 사용기도 관심 있어요.