본 연구는 다양한 아키텍처와 크기를 가진 여러 LLM을 공유 하드웨어에서 서비스할 때 발생하는 자원 할당 문제를 다룹니다. 레이어 오프로딩은 모델 크기에 따라 디코딩 처리량 저하를 유발하며, 작은 모델일수록 GPU 메모리 부족에 민감하게 반응합니다. 선점은 모델 상태 로드에 따른 상당한 오버헤드를 발생시키며, 모델과 하드웨어 플랫폼에 따라 비용이 달라집니다.