사용자가 12GB VRAM GPU 환경에서 Qwen3.6-35b-a3b 모델을 Q5_K_M 양자화, Q4 KV 캐시로 테스트하며 90~100 tok/s 속도를 기록했어요. 에이전트 워크플로우 성능 향상을 위해 더 나은 KV 캐시 양자화 설정을 찾고 있습니다. 속도, 메모리 사용량, 출력 품질에 대한 사용자 경험 공유를 요청했어요.