사용자는 llama-server를 통해 Qwen 35B A3B를 실행하면서 Pi 코딩 에이전트와 비교했을 때 모델의 과도한 사고 문제를 발견했습니다.
Pi와 동일한 시스템 프롬프트를 적용해도 문제 해결에 실패했으며, llama-server의 thinking-level 제어 기능도 적용되지 않았습니다.
Pi가 Qwen의 사고를 제한하는 숨겨진 방법과, 일부 클라이언트가 모델을 재로드하지 않고도 thinking 기능을 켜고 끄는 방법이 궁금합니다.