사용자는 Qwen 3.6 35B-A3B 모델을 LM Studio에서 32K 컨텍스트 윈도우로 실행했을 때, 72% 컨텍스트 로드 시 9t/s의 느린 속도를 확인했습니다.
코딩 에이전트 사용을 위해 컨텍스트 로딩 속도를 개선하거나, 더 빠른 LLM을 찾고 싶어합니다.
KV 캐시를 4비트 양자화하여 TurboQuant 대비 공간 효율성을 높였지만, 성능 개선 효과는 미미했습니다.
현재 하드웨어 사양에서 사용 가능한 LLM을 추천받고 싶으며, 클라우드 에이전트 성능의 80~90% 수준 또는 현재 Qwen 모델 수준의 성능을 기대합니다.
LM Studio 설정 이미지와 Windows 환경에서 실행 중인 정보를 제공했습니다.