연구진은 LLM 망각 시 원치 않는 지식을 억제하면서 유용한 기능을 유지하는 Null-Space Constrained Response-Specified Unlearning (NSRU) 프레임워크를 제안했어요.
NSRU는 안전한 목표 응답을 활용해 원하는 행동을 지정하고, 원치 않는 콘텐츠를 억제하며, 각 모듈별 유지 공간을 추정해 LoRA 업데이트를 제한해요.
TOFU 데이터셋 실험 결과, NSRU는 망각 세트 지식 억제, 유지 QA 성능 향상, 안전한 목표 정렬 측면에서 기존 방식보다 우수한 성능을 보였어요.