Luce-Org에서 Qwen3.6-27B 모델의 프리필 속도를 획기적으로 향상시키는 PFlash를 공개했어요. 이 기술은 작은 드래프트 모델을 활용해 중요 토큰을 예측하고, 무거운 타겟 모델은 중요한 스팬만 프리필하여 처리 시간을 단축해요.
PFlash는 Speculative Prefill, FlashPrefill, mit-han-lab/Block-Sparse-Attention 등 최신 연구를 결합하여 C++/CUDA 환경에서 구현되었으며, 기존 llama.cpp 대비 최대 10배 빠른 속도를 보여줘요.
RTX 3090에서 PFlash를 사용하면 128K 컨텍스트에서 24.8초 만에 프리필이 완료되며, NIAH 검색 기능도 유지하면서 사용자 경험을 개선할 수 있어요.