연구진은 CoT(Chain-of-Thought) 파인튜닝이 하이브리드 선형 어텐션 모델에서 장거리 기억력을 저하시킨다는 사실을 발견했어요. HypeNet과 Jet-Nemotron 등 다양한 모델에서 NIAH(Needle-In-A-Haystack) 검색 성능이 현저히 악화되었어요. 연구진은 CoT 파인튜닝이 단거리 패턴에 편향된 어텐션 그래디언트를 유발하여 장거리 라우팅을 담당하는 쿼리-키 프로젝션을 방해한다고 분석했어요.
QK-Restore라는 새로운 방법론을 제안하여 사전 파인튜닝 체크포인트에서 $W_Q$와 $W_K$만 복원하고 나머지 파인튜닝된 파라미터는 유지하는 방식으로 장거리 기억력을 복원했어요. 이 방법은 학습 비용 없이 장거리 능력을 복원하면서 추론 성능을 유지하며, HypeNet-5B에서 S3@256K 성능을 65.4%에서 76.4%로 향상시켰어요.
연구 결과는 CoT 파인튜닝이 장거리 기억력에 미치는 부정적인 영향을 해결하고, 모델의 성능을 최적화하는 데 중요한 시사점을 제공해요.