R9700 GPU를 여러 개 사용하여 vLLM을 실행하는 사용자들은 AITER Unified Attention 지원 패치를 적용해야 성능을 최적화할 수 있어요. 기존 설정에서는 64k 토큰 이상의 긴 문맥에서 성능이 저하되는 문제가 발생했어요.
MI300X GPU에서도 동일한 문제가 발생했지만, AITER Attention 환경 변수를 활성화하여 패치를 적용한 후 개선되었어요. RDNA4 아키텍처에서도 MI350X와 유사한 방식으로 FP8을 활용할 수 있어요.
AITER Unified Attention을 적용하면 FP16/BF16 KV 캐시만 사용할 수 있지만, Qwen3.6 모델은 캐시 크기가 작아 큰 제약은 없으며, 단일 동시성에서는 MTP를 활성화해도 성능 향상을 얻을 수 있어요.