연구진은 언어 모델의 안전성과 규정 준수를 위해 특정 지식을 삭제하는 것이 중요하다고 보고, 임베딩 레이어를 간과하는 기존 방법의 한계를 지적했어요.
EMBER(EMBedding ERasure)라는 새로운 모듈을 개발하여 토큰 임베딩에서 개념 관련 특징을 정밀하게 삭제하며, Gemma-2-2B-it 및 Llama-3.1-8B-Instruct 모델에서 효과를 입증했어요.
EMBER를 기존 방법과 결합하면 지식 삭제 효과를 높이고 재학습에 대한 강건성을 향상시켜, 기존 방법 대비 재학습으로 되찾은 정확도를 최대 50%까지 줄였어요.