연구진이 장문 컨텍스트 활용 시 발생하는 영향력 감소 및 연산 비용 증가 문제를 해결하기 위해 attention-state memory라는 새로운 방법을 제안했어요.
이 방법은 prefix를 모델 파라미터에 통합하거나 압축하는 기존 방식과 달리, 사전 계산된 attention state를 저장하는 가벼운 메모리를 활용해요.
LLaMA-3.1-8B 모델을 ManyICLBench에서 테스트한 결과, 기존 방식보다 정확도가 향상되었고 NBA 벤치마크에서는 메모리 사용량을 20%로 줄이면서 더 나은 성능을 보였어요.