llama.cpp 사용자가 파이프라인 병렬 처리 설정 시 VRAM 사용량이 크게 증가하는 현상을 발견했어요. 기본적으로 활성화된 파이프라인 병렬 처리는 추론 속도 향상은 없지만 VRAM을 더 많이 소모해요.
GGML_SCHED_MAX_COPIES 옵션을 1로 설정하면 VRAM 사용량을 줄일 수 있어요. 이 옵션을 사용하지 않으면 llama.cpp가 파이프라인 병렬 처리 시 더 많은 계산 버퍼를 할당해요.
테스트 결과, 파이프라인 병렬 처리 활성화 시 VRAM 사용량이 최대 1.5GB 증가했으며, 컨텍스트 캐시 양자화 사용 시 이 현상이 더욱 심각해져 양자화로 인한 VRAM 절감 효과를 상쇄할 수 있어요.