Pulse · AI 뉴스

로컬 코딩을 위한 Spark 2대 고려 중

MiniMax · 2026-05-05

사용자가 4개의 RTX 3090 시스템에서 Qwen3.5-122B-A10B 모델을 테스트해봤으며, 이제 Spark 2대와 MiniMax M2.7을 고려하고 있습니다.

두 대의 Spark를 사용하면 120k 토큰까지의 컨텍스트를 처리할 수 있으며, 출력 토큰 속도는 약 15토큰/초로 유지됩니다.

MiniMax M2.7은 현재 시스템에서 제대로 벤치마크할 수 없으며, 96GB VRAM과 느린 DDR4 2133 RAM이 병목 현상을 일으킵니다.

##로컬LLM##Spark##MiniMax##코딩##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게