128GB 시스템 RAM과 16GB VRAM 환경에서 GPU 메모리 제한을 받는지 질문했습니다. CPU 오프로딩 기법 외에 시스템 RAM을 활용하여 컨텍스트 크기를 늘릴 수 있는지 궁금해합니다. 효율적인 토큰 생성 속도를 유지하면서 시스템 RAM을 사용하는 방법이 있는지 문의했습니다.