Pulse · AI 뉴스

Qwen3.6-35b-a3b 모델 KV 캐시 양자화 설정 비교 테스트 경험 공유

Qwen · 2026-05-19

사용자가 12GB VRAM GPU 환경에서 Qwen3.6-35b-a3b 모델을 Q5_K_M 양자화, Q4 KV 캐시로 테스트하며 90~100 tok/s 속도를 기록했어요. 에이전트 워크플로우 성능 향상을 위해 더 나은 KV 캐시 양자화 설정을 찾고 있습니다. 속도, 메모리 사용량, 출력 품질에 대한 사용자 경험 공유를 요청했어요.

##모델양자화##Qwen##KV캐시##에이전트
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기