Pulse · AI 뉴스

LLM 추론 시 컨텍스트·메모리·RAM/VRAM 관계 이해

Qwen · 2026-06-07

Qwen 27B 모델을 llama.cpp로 실행하는 사용자입니다. 컨텍스트 캐시가 채워질수록 RAM 사용량이 증가하여 시스템 RAM 부족(OOM) 현상이 발생합니다.

VRAM에 캐시가 할당될 것이라는 예상과 달리 RAM 사용량이 늘어나는 원인을 파악하고 싶어합니다. 메모리 확장 기능과 관련이 있을 수도 있습니다.

Ubuntu PC (3090, 16GB RAM) 환경에서 테스트 중이며, RAM 용량 증설을 위해 32GB 메모리를 주문했습니다.

##LLM##메모리##RAM##VRAM##llama.cpp

매일 핵심 AI 소식을 한국어로, 빠르게