Pulse · AI 뉴스

RepSelect: LLM 지식 삭제 시 표현 선택성 활용으로 강력한 효과

RepSelect · 2026-06-15

연구진은 LLM의 특정 지식 삭제 시 표현 선택성을 활용하는 RepSelect 방법을 제안했어요. 기존 방법은 일반 능력을 손상시키고 쉽게 되돌릴 수 있지만, RepSelect는 일반 능력을 유지하면서 되돌리기 어려운 삭제를 가능하게 해요.

RepSelect는 가중치 업데이트 시 상위 주성분 분석을 활용하여 삭제 대상 지식에 특화된 표현을 분리하고, 생물학적 위험 지식 및 부적절한 행동 경향 삭제 실험에서 기존 방법보다 4~50배 더 큰 감소 효과를 보였어요.

Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite 등 다양한 모델 아키텍처에서 효과를 입증했으며, few-shot prompting 공격에도 거의 완벽하게 견고했어요.

##LLM##Unlearning##RepSelect##AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기