사용자가 6개의 P40 GPU를 활용해 Minimax M2.7 모델을 구동하는 데 성공했어요. Asus X99-E-WS 메인보드와 128GB RAM을 사용했으며, 6개의 P40 GPU에 144GB VRAM을 할당했어요.
벤치마크 결과, CUDA_P2P 활성화 및 2048/256 배치 사이즈 설정 시 성능 향상을 확인했으며, 레이어 분할 방식으로 안정적인 구동을 선택했어요.
최적 설정으로 CUDA_VISIBLE_DEVICES, 모델 경로, GPU 할당, 컨텍스트 사이즈, 배치 사이즈, Flash Attention 활성화 등 다양한 옵션을 적용해 llama-server를 실행했어요.