본 연구는 언어 모델이 새로운 지식을 통합하면서 기존 지식을 잊지 않도록 하는 지속적인 사전 훈련(CPT)의 작동 원리를 분석합니다.
이론적 프레임워크를 통해 CPT 방법의 훈련 역학을 설명하고, 데이터 재생 방법이 기존 지식을 안정화하는 데 중요한 역할을 한다는 것을 밝혀냈습니다.
STOC(Select Tokens via attention on Contribution)라는 새로운 생성 데이터 재생 접근 방식을 제안하여, 재앙적 망각을 완화하고 사실 지식 습득을 향상시켰습니다.