연구진은 장문 컨텍스트 활용 시 발생하는 영향력 감소와 어텐션 연산 지연 문제를 해결하기 위해 attention-state memory라는 새로운 방식을 제안했어요.
이 방식은 prefix를 모델 파라미터에 통합하거나 압축하는 기존 방식과 달리, 사전 계산된 어텐션 상태를 가볍고 조회 기반의 메모리에 저장하는 방식으로 작동해요.
ManyICLBench에서 LLaMA-3.1-8B 모델을 활용한 실험 결과, 기존 방식 대비 정확도를 향상시키고 어텐션 지연 시간을 1.36배 단축했으며, NBA 벤치마크에서 기존 방식 대비 메모리 사용량을 20% 절감했어요.