사용자가 GLM-5.2 모델을 HGX-H200 GPU 환경에 Docker로 배포하는 설정 정보를 공유했어요. SGLang을 사용해 최대 262K 컨텍스트를 처리하며 70t/s의 속도를 달성했어요. vLLM 공식 레시피가 H200 아키텍처에서 작동하지 않는다는 점을 언급했어요.
Docker run 명령어를 통해 GPU를 활용하고, 모델 경로와 포트를 지정하여 GLM-5.2 모델을 실행하는 방법을 제시했어요. DP, moe-a2a-backend, mem-fraction-static 등의 옵션을 조정하여 성능을 최적화했어요. 현재 회사 GPU를 활용하여 실험한 결과를 공유하는 것이라고 밝혔어요.
Hugging Face SGLang 이미지를 기반으로 Docker 컨테이너를 실행하며, 다양한 파라미터(TP, 메모리 할당 등)를 설정하여 GLM-5.2 모델을 최적화했어요. 사용자는 질문에 답변하며 추가 정보를 제공할 의사를 밝혔어요.