Pulse · AI 뉴스

PFlash: RTX 3090에서 Qwen3.6-27B의 프리필 속도 10배 향상

Qwen · 2026-05-01

Luce-Org에서 Qwen3.6-27B 모델의 프리필 속도를 획기적으로 향상시키는 PFlash를 공개했어요. 이 기술은 작은 드래프트 모델을 활용해 중요 토큰을 예측하고, 무거운 타겟 모델은 중요한 스팬만 프리필하여 처리 시간을 단축해요.

PFlash는 Speculative Prefill, FlashPrefill, mit-han-lab/Block-Sparse-Attention 등 최신 연구를 결합하여 C++/CUDA 환경에서 구현되었으며, 기존 llama.cpp 대비 최대 10배 빠른 속도를 보여줘요.

RTX 3090에서 PFlash를 사용하면 128K 컨텍스트에서 24.8초 만에 프리필이 완료되며, NIAH 검색 기능도 유지하면서 사용자 경험을 개선할 수 있어요.

##모델출시##Qwen##FlashPrefill

매일 핵심 AI 소식을 한국어로, 빠르게