연구진은 레이어 간 희소 어텐션(CLSA)을 제안하여 LLM의 장문 추론 효율성을 높였습니다. CLSA는 KV-sharing 아키텍처 기반으로, 단일 인덱서를 사용하여 레이어 간 라우팅 인덱스를 공유하여 라우팅 오버헤드를 줄입니다. 실험 결과, CLSA는 최대 7.6배의 디코딩 속도 향상과 17.1배의 전체 처리량 개선을 달성하며 모델 품질과 추론 효율성을 동시에 향상시켰습니다.