PALS는 GPU 전력 캡을 제어 가능한 자원으로 활용하여 LLM 서빙의 에너지 효율을 높이는 런타임입니다. vLLM 프레임워크에 통합되어 모델 재학습이나 API 변경 없이 최대 26.3%의 에너지 효율 향상을 달성했습니다. PALS는 오프라인 전력-성능 모델과 피드백 기반 컨트롤러를 결합하여 처리량 목표를 충족하면서 에너지 효율을 극대화합니다.
MoE 모델과 멀티 GPU 시스템에서 PALS는 QoS 위반을 최대 7배 줄이고 동적 전력 예산을 추적합니다. 기존 방식처럼 처리량과 지연 시간을 최적화하는 것 외에 전력 제어를 통합하는 것이 중요함을 보여줍니다.
PALS는 LLM 서빙 런타임에 전력 제어를 직접 통합하여 에너지 비례적이고 그리드 연동 AI 시스템을 가능하게 합니다.