연구팀은 진화 전략(ES)으로 LLM을 미세 조정할 때 이전 작업에 대한 망각이 발생한다는 점을 확인했어요. ES 미세 조정은 강화 학습(RL)에 비해 단순하고 확장 가능하며 추론만으로 훈련할 수 있다는 장점이 있지만, 새로운 작업에서 이전 작업에 대한 망각을 유발할 수 있다는 문제점이 있었어요.
연구팀은 ES 훈련 동역학, 특히 가중치 공간의 약하게 제약된 방향에서 무작위 도보 현상이 발생할 때 망각 현상이 발생한다는 것을 분석하고, 초기 모델 파라미터로 최적화가 제한되도록 가중치 감쇠를 조정하는 Anchored Weight Decay(AWD) 기법을 제안했어요.
AWD는 이전 작업 성능을 안정화시키면서 목표 작업 성능을 유지하여 큰 ES 인구 크기와 유사한 이점을 훨씬 낮은 계산 비용으로 달성하며, ES가 LLM의 지속적인 학습에 유망한 접근 방식임을 입증했어요.