연구진이 선형 어텐션 모델의 기억력 문제를 해결하기 위해 HOLA(Hippocampal Linear Attention)를 제안했어요. HOLA는 순환 상태 메모리와 함께 제한된 정확한 KV 캐시를 추가하여, 중요한 정보를 잊지 않도록 설계됐어요.
HOLA는 340만 파라미터로 학습했으며, Wikitext 퍼플렉시티를 27.32에서 22.92로 낮춰 풀 어텐션 Transformer++보다 뛰어넘는 성능을 보여줬어요.
RULER 테스트에서 최대 32,000 토큰까지 정확한 정보 검색 능력을 유지하며, GDN이나 HOLA+recency 캐시보다 더 강력한 성능을 입증했어요.