DGX Spark 환경에서 Qwen3.6-35B 모델을 사용할 때 Atlas를 사용했을 때 도구 호출 오류, 낮은 TPS 등의 문제가 발생하여 현재는 사용하지 않고 있습니다.
RedHatAI/Qwen3.6-35B-A3B-NVFP4 모델은 단일 스트림에서 51 TPS, 4중 동시 실행 시 139 TPS를 기록했으며, 평균 초안 수락률은 77.8%입니다.
AWQ 설정으로 QuantTrio/Qwen3.6-35B-A3B-AWQ 모델을 사용했을 때 만족스러운 결과를 얻지 못했으며, 자세한 설정 내용은 코드 스니펫을 참고할 수 있습니다.