RTX 3090 (24GB) 환경에서 Qwen3.6 35B 모델을 실행할 때 응답 속도가 너무 느리고, 27B 모델은 코딩 작업 시 불안정하다는 사용자의 고민을 담고 있습니다.
사용자는 모델 추천, 플래그 설정 최적화, 컨텍스트 사이즈 조정 등 다양한 개선 방법을 모색하며, 더 나아가 자동 모델 로딩 및 라우팅 기능에 대한 필요성을 언급했습니다.
Reddit 커뮤니티에 공유된 이 게시물은 로컬 LLM 환경 구축 및 최적화에 어려움을 겪는 사용자들에게 유용한 정보를 얻을 수 있는 기회를 제공합니다.