연구진은 LLM의 특정 지식 삭제 시 표현 선택성을 활용하는 RepSelect 방법을 제안했어요. 기존 방법은 일반 능력을 손상시키고 쉽게 되돌릴 수 있지만, RepSelect는 일반 능력을 유지하면서 되돌리기 어려운 삭제를 가능하게 해요.
RepSelect는 가중치 업데이트 시 상위 주성분 분석을 활용하여 삭제 대상 지식에 특화된 표현을 분리하고, 생물학적 위험 지식 및 부적절한 행동 경향 삭제 실험에서 기존 방법보다 4~50배 더 큰 감소 효과를 보였어요.
Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite 등 다양한 모델 아키텍처에서 효과를 입증했으며, few-shot prompting 공격에도 거의 완벽하게 견고했어요.