MiniMax M2.7 AWQ-4bit 모델의 성능을 2배 RTX 6000 환경과 비교한 벤치마크 결과를 공유했어요. 프롬프트 처리 속도는 2.7배, 토큰 생성 속도는 4.88배 차이를 보였지만, 에너지 효율은 유사했어요.
2개의 RTX 6000 환경은 2배 Spark 클러스터보다 약 2.9배 더 비싸고 전력 소비량도 높았어요. 특히, 동시 요청 시 KV 캐시 제한으로 인해 성능 저하가 발생했어요.
RunPod에서 2배 RTX 6000 환경을 구성하는 데 약 3.78달러/시간이 소요되며, Spark 클러스터는 약 7천 달러의 초기 투자 비용이 필요했어요.