대규모 언어 모델(LLM)의 학습 삭제는 악의적인 행동에 대한 유망한 안전장치로 떠오르고 있어요. 연구진은 예측 분포의 엔트로피를 토큰 정보성의 대리 지표로 사용하는 엔트로피 기반 토큰 가중치(ETW)라는 새로운 방법을 제안했어요. ETW는 기존 방식보다 모델 유용성을 더 잘 보존하면서 효과적인 학습 삭제를 달성하는 것으로 나타났어요.