Llama.cpp의 자동 메모리 할당 기능이 예상보다 훨씬 뛰어난 성능을 보여주고 있습니다. 32GB VRAM 환경에서 20GB 모델만 돌릴 수 있다고 생각했지만, 실제로는 더 큰 모델도 고속으로 실행 가능합니다. VRAM에 모델 전체가 들어가지 않아도 `--fit` 옵션을 통해 57 t/s의 빠른 속도를 얻을 수 있습니다.