Pulse · AI 뉴스

Context Memorization: 효율적인 장문 컨텍스트 생성을 위한 메모리 활용

Llama · 2026-05-18

연구진은 장문 컨텍스트 활용 시 발생하는 영향력 감소와 어텐션 연산 지연 문제를 해결하기 위해 attention-state memory라는 새로운 방식을 제안했어요.

이 방식은 prefix를 모델 파라미터에 통합하거나 압축하는 기존 방식과 달리, 사전 계산된 어텐션 상태를 가볍고 조회 기반의 메모리에 저장하는 방식으로 작동해요.

ManyICLBench에서 LLaMA-3.1-8B 모델을 활용한 실험 결과, 기존 방식 대비 정확도를 향상시키고 어텐션 지연 시간을 1.36배 단축했으며, NBA 벤치마크에서 기존 방식 대비 메모리 사용량을 20% 절감했어요.

##LLM##어텐션##메모리##장문컨텍스트##LLaMA

매일 핵심 AI 소식을 한국어로, 빠르게