Pulse · AI 뉴스

GLM-5.2 NVFP4, 4개의 DGX Spark에서 MTP 미스터리 해결: 128K 컨텍스트에서 초당 ~24 토큰

GLM · 2026-07-03

Anthropic이 GLM-5.2 NVFP4 모델을 4개의 DGX Spark에서 실행하는 과정에서 128K 컨텍스트 환경에서 초당 15 토큰 처리 속도로 MTP1을 사용할 때와 초당 23 토큰 처리 속도로 DCP1을 사용할 때 속도 저하 문제가 있었습니다.

최신 업데이트를 통해 이 문제를 해결하여 128K 컨텍스트 환경에서 초당 22~23 토큰 처리 속도로 MTP3를 사용할 수 있게 되었으며, MTP4를 사용하면 최대 24 토큰 처리 속도를 달성할 수 있습니다.

문제는 MTP draft layer의 parallel config가 잘못 설정되어 발생했으며, 이 문제를 해결하기 위해 코드 수정 및 최신 upstream branch로 재기본 설정하는 과정을 거쳤습니다. 이제 DCP4 환경에서 최대 컨텍스트를 활용하여 더 빠른 속도를 얻을 수 있습니다.

##GLM##MTP##DGXSpark##LLM##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기