3개의 RTX 4090 GPU를 보유한 사용자가 72GB VRAM 환경에서 128k 컨텍스트 길이를 지원하는 최적의 오픈 소스 모델을 찾고 있어요. 다양한 양자화 방식과 어텐션 메커니즘을 고려하여 메모리 사용량을 최소화하는 모델을 희망합니다. 사용자는 오픈 소스 모델의 성능과 메모리 효율성을 비교하여 최적의 선택을 내리고자 합니다.