Pulse · AI 뉴스

l9gpu: GPU 워크로드 추적 및 관리를 위한 오픈소스 도구

l9gpu · 2026-05-21

l9gpu는 GPU 사용량 책임 소재를 파악하기 어려운 문제를 해결하기 위해 개발된 오픈소스 에이전트입니다. Kubernetes, Slurm, LLM 추론 환경 등 다양한 환경에서 GPU 지표를 OTLP 방식으로 제공합니다. Meta의 gcm 프로젝트를 기반으로 K8s 추적 기능, 멀티 벤더 GPU 지원, OTLP 내보내기 기능을 추가했습니다.

Kubernetes 환경에서는 GPU 지표를 파드, 네임스페이스, 배포와 연결하고, Slurm 환경에서는 작업 ID, 사용자, 파티션과 연결합니다. vLLM, SGLang, TGI 등 LLM 추론 환경에 대한 기본 지표도 제공하며 NVIDIA, AMD MI300X, Intel Gaudi 등 다양한 GPU 하드웨어를 지원합니다.

17개의 Prometheus 경고 규칙과 Grafana 대시보드가 미리 구축되어 있어 GPU 비용 가시성을 확보하고 공유 연구 클러스터에서 GPU 사용량을 효율적으로 관리할 수 있습니다.

##GPU##오픈소스##모니터링##Kubernetes##Slurm
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기