Anthropic의 제품 레이어 회귀 문제 이후, 로컬 모델을 사용하여 벤치마크 결과의 일관성을 확보하고자 했습니다.
RTX 5080 16GB에서 Qwen3.6 모델을 사용하여 Claude Code 워크플로우를 구현했으며, 128K 컨텍스트에서 30t/s의 성능을 기록했습니다.
다양한 튜닝 시도 끝에 adaptive KV 모드 선택, MoE 오프로드, VRAM 최적화 등을 통해 성능을 개선했으며, 이는 16GB GPU에서 장시간 코딩 에이전트 작업을 가능하게 합니다.