WattGPU는 LLM 추론 워크로드에 최적의 GPU를 선택하는 데 도움을 주는 새로운 예측 모델입니다. 이 모델은 공개된 LLM 메타데이터와 GPU 사양만 활용하여 하드웨어 접근이나 프로파일링 없이도 새로운 NVIDIA GPU와 LLM에 대한 일반화가 가능합니다. WattGPU는 기존 방식보다 전력 예측 정확도를 최대 4배, 지연 예측 정확도를 2배 향상시켰으며, 서버 환경에서 GPU 순위 상관관계도 높게 유지합니다.