연구진은 LLM의 긴 문맥 처리 성능을 향상시키는 Dynamic Linear Attention (DLA) 프레임워크를 제안했어요. DLA는 토큰 중요도 변화에 따라 동적으로 메모리 상태를 조정하여 정보 손실을 줄여요.
DLA는 Information-Aware Dynamic State Merging을 통해 의미 변화가 큰 영역은 고해상도로 유지하고, 안정적인 영역은 적극적으로 요약하는 방식을 사용해요.
Capacity-Bounded Memory Modeling을 통해 고정된 크기의 메모리 캐시를 유지하며, 불필요한 정보 손실 없이 메모리 성장을 제어해요.