Pulse · AI 뉴스

단일 인덱싱만으로 충분: 공유 라우팅을 통한 레이어 간 희소 어텐션

KV-sharing · 2026-06-05

연구진은 레이어 간 희소 어텐션(CLSA)을 제안하여 LLM의 장문 추론 효율성을 높였습니다.

CLSA는 KV-sharing 아키텍처 기반으로, 단일 인덱서를 사용하여 레이어 간 라우팅 인덱스를 공유하여 라우팅 오버헤드를 줄입니다.

실험 결과, CLSA는 최대 7.6배의 디코딩 속도 향상과 17.1배의 전체 처리량 개선을 달성하며 모델 품질과 추론 효율성을 동시에 향상시켰습니다.

##LLM##어텐션##희소어텐션##KV-sharing##장문추론

매일 핵심 AI 소식을 한국어로, 빠르게