연구진이 LLM 학습 과정의 불안정성 및 효율 저하 문제를 해결하기 위해 Learn-by-Wire Guard (LBW-Guard)를 개발했어요.
LBW-Guard는 AdamW 위에 위치하여 학습 데이터를 관찰하고, 불안정 징후를 감지하여 학습 제어를 수행하며, 기존 학습 목표는 유지해요.
Qwen2.5-7B 모델을 기준으로 평가 결과, 최종 퍼플렉시티를 18.7% 개선하고 학습 시간을 1.1배 단축했어요.
강력한 학습률 스트레스 환경에서도 AdamW가 학습 불가 상태가 되는 반면, LBW-Guard는 안정적인 학습을 유지하며 LLM 학습의 새로운 가능성을 제시했어요.