Pulse · AI 뉴스

GPU NVENC 활용, PCIe 병목 현상 해결: PyTorch 라이브러리 공개

torch-nvenc-compress · 2026-05-04

GPU의 NVENC/NVDEC 칩을 활용해 PCIe 병목 현상을 해결하는 PyTorch 라이브러리 'torch-nvenc-compress'가 공개됐습니다. 이 라이브러리는 GPU 간 활성화 데이터와 KV 캐시를 압축하여 전송하는 방식으로 작동합니다.

PCA와 랭크 축소 기법을 통해 데이터의 노이즈를 줄이고, 코덱이 활용할 수 있는 채널 공분산을 드러냅니다. 이를 통해 LLM의 추론 성능을 향상시킬 수 있습니다.

DirectBackend를 통해 FFmpeg 서브프로세스 오버헤드를 줄이고, CUDA 스트림 파이프라이닝을 통해 압축 속도를 높여 GPU 활용도를 극대화합니다.

실제 워크로드 테스트 결과, 디퓨전 모델에서 6.1배, LLM KV 캐시에서 2.7배의 압축률을 보였으며, 이론적인 최대 중첩률의 67%를 달성했습니다.

향후 멀티 GPU PCIe 피어투피어 활성화 전송 및 분산 모델 추론에 대한 검증이 필요하며, 관련 분야에 관심 있는 개발자들의 참여를 환영합니다.

##GPU##NVENC##PyTorch##병목현상##압축
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기