DrBearJew가 AMD ROCm 환경에서 TurboQuant (TBQ4)와 MTP를 결합하여 Llama CPP를 최적화했습니다. RX 7900 XTX (24GB VRAM)에서 64K 컨텍스트를 사용하면서도 20GB 내외의 VRAM 사용량으로 38~54 토큰/초의 성능을 보여줍니다. Qwen3.6-27B 모델을 TBQ4 형식으로 변환하여 사용했으며, RDNA3.5 및 RDNA4는 아직 테스트되지 않았습니다.