연구진은 대규모 언어 모델이 추론 과정을 통해 생성하는 일시적인 추론 기록을 지속적인 지식으로 전환하여 온라인 학습할 수 있는지 확인했어요.
개별 추론 기록은 추상화가 부족하여 토큰 수준의 재사용이 어렵다는 한계를 보여주지만, 자기 생성 테스트 시간 신호를 활용한 경량화된 인스턴스별 학습은 상당한 성능 향상을 가져왔어요.
연구 결과, 추론 과정을 요약하는 소형 잠재 기억을 구축하여 미래 입력에 활용하면 지속적인 성능 향상과 함께 파국적 망각을 방지할 수 있으며, 수학적 추론 벤치마크에서 기존 방식보다 뛰어난 성능을 보였어요.