vLLM이 ROCm 환경에서 HIP W4A16 커널 지원 PR을 병합하여 성능을 향상시켰어요. RDNA3 환경에서 bf16은 205.3 tk/s, fp16은 270.2 tk/s의 성능을 보여줘요. PR에 따르면 최대 시퀀스 길이 32에서 445.7 tk/s의 성능을 달성했어요.