연구진은 기존 희소 어텐션 방식의 복잡성을 줄인 간소화된 희소 어텐션(SSA)을 제안했어요. SSA는 모델 구조 변경 없이 gist 토큰을 활용해 중요한 정보를 압축하고, 추론 시 관련 청크만 선택적으로 펼쳐서 처리합니다.
LongBench 벤치마크에서 SSA는 기존 압축 및 희소 어텐션 방식보다 성능이 뛰어나며, RAG(검색 증강 생성)에서는 기존 풀 어텐션보다 5.7% 이상 성능 향상을 보였어요.
SSA는 계층적 gist-of-gist 방식(H-SSA)을 통해 최대 32배의 압축률에서도 정확도를 유지하거나 향상시키면서 로그 선형 복잡도를 달성합니다. 관련 코드는 GitHub에서 확인할 수 있어요.