Pulse · AI 뉴스

12GB VRAM 사용자 위한 llama.cpp 전문가(expert) 구현 실험

llama.cpp · 2026-05-23

RTX 2060 12GB VRAM 사용자가 llama.cpp 포크를 통해 전문가(expert) 기반 모델 구현 실험을 진행했어요. Qwen3.6-35B-A3B 모델의 전문가를 활용해 VRAM 사용량을 늘리고 성능을 향상시켰어요. 실험 결과, 전문가 히트율이 62%일 때 토큰 생성 속도가 26 tks로 증가했으며, 42% 히트율이 임계점이었어요. 3060/4060 등 다른 NVIDIA 그래픽 카드에서의 성능 테스트 참여자를 찾고 있어요.

기존 CPU-MoE 방식 대비 전문가 핫 캐시 활용 시 VRAM 사용량 감소와 속도 향상 효과를 확인했어요. llama UI를 통해 어떤 전문가가 사용되는지 모니터링 기능도 제공돼요. Linux 환경에서 테스트되었으며, GitHub 저장소에서 빌드 후 특정 명령어를 통해 테스트할 수 있어요.

현재까지는 Linux 환경에서만 테스트되었으며, 다른 NVIDIA 그래픽 카드에서의 성능 테스트 참여자를 기다리고 있어요. 별점과 같은 것은 중요하지 않으며, 다양한 그래픽 카드에서의 토큰 생성 속도 변화를 파악하는 것이 목표입니다.

##llama.cpp##MoE##Qwen##VRAM##NVIDIA
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기