Qwen 3.6 27B 모델이 DeepSWE 벤치마크에서 2%의 점수를 기록하며 Haiku 4.5, Miimax M2.7 모델보다 높은 순위를 차지했어요.
벤치마크는 총 70시간 동안 진행되었으며, 작업당 평균 출력 토큰은 44,000개로 유사 모델과 비슷한 수준을 보여줬어요.
RTX6000 Pro Blackwell GPU를 사용해 VLLM 환경에서 FP8, BF16 KV 캐시 방식으로 테스트했으며, RunPod에서 시간당 평균 비용을 계산했어요.