Pulse · AI 뉴스

vLLM, HIP W4A16 커널 지원 PR 병합으로 성능 향상

vLLM · 2026-05-29

vLLM이 ROCm 환경에서 HIP W4A16 커널 지원 PR을 병합하여 성능을 향상시켰어요.

RDNA3 환경에서 bf16은 205.3 tk/s, fp16은 270.2 tk/s의 성능을 보여줘요.

PR에 따르면 최대 시퀀스 길이 32에서 445.7 tk/s의 성능을 달성했어요.

##vLLM##ROCm##HIP##커널
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기