Strix Halo에서 ROCm 7.13 지원, MTP 통합 등 최적화 테스트를 진행했습니다. ROCm은 풀 컨텍스트에서 성능이 크게 저하되지만, MTP를 사용하면 상당 부분 회복됩니다. Vulkan은 상대적으로 안정적인 성능을 유지합니다.
35B MoE 모델에서 ROCm MTP는 37.5 tok/s의 성능을 보여주며, 이는 기존 ROCm 대비 2.3배 향상된 수치입니다. 122B MoE 모델에서는 Vulkan이 6%의 미미한 성능 향상을 보여주었습니다.
BF16 모델은 풀 컨텍스트에서 작동하지 않으며, 35B 모델은 Q8, 122B 모델은 Q4 양자화 방식을 사용해야 합니다. 현재 설정에서 ROCm MTP는 생산 환경에서 가장 적합한 선택입니다.