사용자가 8xR9700과 6x7900xtx, 256GB RAM 환경에서 vLLM을 사용하여 모델을 실행하고 있습니다. MiniMax M2.7과 Qwen3-27b를 활용하고 있으며, 로컬 환경에서 오프라인 추론을 사용합니다.
DeepSeek V4 Flash 모델을 8xR9700에서 실행했지만 200~300 토큰 이후 멈추는 문제가 발생했으며, t/s는 40 정도였습니다.
GLM-5.1 모델을 REAP 시도했지만 vLLM 오류로 인해 실행하지 못했으며, 사용자 경험을 공유할 만한 모델 목록을 기다리고 있습니다.