LG AI연구원이 LLM 서비스 운영 중 남는 GPU 자원을 활용해 연구·실험 작업을 진행하는 GPU Job 스케줄링 시스템을 구축했어요. 유휴 GPU Pool을 통해 GPU 사용률을 70%까지 끌어올리고, 연구원들의 실험 환경 접근성을 높였다고 해요. 이 시스템은 Kubernetes 기반으로 설계됐으며, GPU 할당량 관리 및 Job 우선순위 설정 기능을 제공합니다.