사용자가 4개의 RTX 3090 시스템에서 Qwen3.5-122B-A10B 모델을 테스트해봤으며, 이제 Spark 2대와 MiniMax M2.7을 고려하고 있습니다. 두 대의 Spark를 사용하면 120k 토큰까지의 컨텍스트를 처리할 수 있으며, 출력 토큰 속도는 약 15토큰/초로 유지됩니다. MiniMax M2.7은 현재 시스템에서 제대로 벤치마크할 수 없으며, 96GB VRAM과 느린 DDR4 2133 RAM이 병목 현상을 일으킵니다.