사용자가 Proxmox 서버에서 Blackwell MaxQ GPU 두 개로 llama.cpp를 실행하며 성능 개선 가능성을 문의했어요. 현재 300W 중 250W 사용 중이며, 초당 100~110 토큰을 생성하는 데 그치고 있어요. vLLM과 같은 다른 프레임워크로 전환하는 것은 고려하지 않고, llama.cpp 환경에서 성능 향상을 원하고 있어요.
GPU 메모리 사용량은 20GB 정도 남아있으며, 다른 애플리케이션도 함께 실행 중인 상태예요. llama.cpp 설정에서 쉽게 개선할 수 있는 부분이 있는지 질문했어요.
현재 설정은 `--gpu-layers 99`, `--batch-size 6144`, `--ctx-size 1048576` 등을 포함하고 있으며, 더 높은 성능을 달성하기 위한 조언을 구하고 있어요.