연구진은 리커런트 모델의 메모리 관리 문제를 해결하기 위해 CARVE(Content-Aware Recurrent with Value Efficiency)를 제안했어요.
CARVE는 키(key) 축에서만 삭제를 수행하여 기존 GDN-2의 문제점들을 개선하고, 메모리 용량과 안정성을 확보했어요.
13억 파라미터 규모로 1000억 토큰 학습 시 WikiText 퍼플렉시티 15.72를 달성하며 기존 모델 대비 성능 향상 및 RULER 검색 성능 최적화했어요.