RAG 시스템에서 디코딩 속도가 아닌 프리필 속도가 병목 현상을 일으킨다는 지적이 나왔어요. Strix Halo와 같은 통합 메모리 기반 시스템은 프리필 처리량이 낮은 편이라 20~60초의 지연이 발생할 수 있어요. 대규모 컨텍스트를 처리하는 RAG 작업에서 빠른 응답 속도를 위해서는 별도의 PCIe 슬롯이 있는 보드를 선택하여 프리필 작업을 분산하는 것이 좋습니다.