AMD Radeon 8060S (Strix Halo)에서 llama.cpp 벤치마크를 진행한 결과, Vulkan 백엔드가 ROCm보다 토큰 생성 속도가 약 21% 더 빠른 것으로 나타났습니다.
Qwen3.6-35B-A3B 모델(MoE, Q6_K 양자화)을 사용했으며, 64GB 통합 VRAM 환경에서 Mesa RADV Vulkan 드라이버를 통해 테스트했습니다.
ROCm이 특정 연산에서 느린 코드 경로로 되돌아가는 듯하며, 다른 RDNA3.5 칩 사용자들의 경험도 궁금합니다.