Deepseek Flash 모델의 컨텍스트 확장 가능성에 대한 소식이 전해졌는데, Gemma 4 모델에서도 동일하게 작동하는 것으로 확인됐어요.
RTX5090 GPU 환경에서 Docker 명령어를 통해 Gemma 4.31B-IT-Q6_K.gguf 모델의 컨텍스트 사이즈를 35k에서 80k로 확장할 수 있어요.
GGML_CUDA_NO_PINNED=1 설정, 백엔드 샘플링 활성화, llama.cpp 웹 인터페이스 백엔드 샘플링 체크 등의 팁을 활용하면 성능 향상을 기대할 수 있어요.