Qwen 3.6 27B 모델을 BF16, Q4_K_M, Q8_0 GGUF 양자화 방식으로 변환하여 llama-cpp-python 환경에서 성능을 테스트했어요. Q4_K_M 양자화 방식이 BF16에 비해 속도는 빠르고 RAM 사용량도 적으면서 BFCL 성능은 거의 동일하여 실용적인 선택지로 보입니다. Q8_0 양자화 방식은 Q4_K_M보다 성능이 떨어지고 RAM 사용량도 많아 기대에 미치지 못하는 결과를 보여줬어요.