연구진은 CoT(Chain-of-thought) 파인튜닝이 하이브리드 선형 어텐션 모델에서 장거리 기억력을 저하시킨다는 사실을 발견했어요.
HypeNet, Jet-Nemotron 등 다양한 모델에서 CoT-SFT 후 Needle-In-A-Haystack(NIAH) 검색 성능이 현저히 악화되며, 특히 더 어려운 환경과 긴 컨텍스트에서 심화돼요. 예를 들어 HypeNet-9B는 NIAH-S2@256K에서 67.2%에서 9.4%로 하락했어요.
QK-Restore라는 새로운 방법으로 W_Q, W_K 파라미터만 복원하여 장거리 기억력을 회복하고, 기존 CoT 파인튜닝 성능도 유지할 수 있었어요. HypeNet-5B는 S3@256K를 65.4%에서 76.4%로 개선했어요.