Pulse · AI 뉴스

Qwen 3.6 35B-A3B 로컬 LLM 성능 개선 방법 및 대체 모델 추천

Qwen · 2026-05-10

사용자는 Qwen 3.6 35B-A3B 모델을 LM Studio에서 32K 컨텍스트 윈도우로 실행했을 때, 72% 컨텍스트 로드 시 9t/s의 느린 속도를 확인했습니다.

코딩 에이전트 사용을 위해 컨텍스트 로딩 속도를 개선하거나, 더 빠른 LLM을 찾고 싶어합니다.

KV 캐시를 4비트 양자화하여 TurboQuant 대비 공간 효율성을 높였지만, 성능 개선 효과는 미미했습니다.

현재 하드웨어 사양에서 사용 가능한 LLM을 추천받고 싶으며, 클라우드 에이전트 성능의 80~90% 수준 또는 현재 Qwen 모델 수준의 성능을 기대합니다.

LM Studio 설정 이미지와 Windows 환경에서 실행 중인 정보를 제공했습니다.

##LLM##Qwen##로컬AI##코드에이전트##성능

매일 핵심 AI 소식을 한국어로, 빠르게