회사에서 RTX PRO 6000 Blackwell 워크스테이션을 확보하고 Claude 토큰 사용량 감소를 위해 Qwen3.6 27B MTP Q8_K_XL 모델을 llama.cpp로 실행하고 있어요.
모델은 Claude Sonnet과 비슷한 성능을 보이지만, 지식 부족과 불안정성 문제가 발생하며, 특히 코딩 시에는 Context7, Serper 같은 도구를 활용해 클래스명, API 등을 정확하게 파악하는 것이 중요해요.
현재 llama.cpp 실행 중 오류가 빈번하게 발생하고, Copilot이 응답을 비어있다고 인식하는 문제가 있는데, 더 많은 경험을 가진 사용자의 조언을 구하고 있어요.