연구진은 LLM의 행동적 망각이 남기는 내부 흔적을 분석하고, 성능 저하 없이 외과적으로 제거하는 방법을 제시했습니다.
교차 시퀀스 프로브를 통해 기억 관련 패턴을 확인하고, Pythia-70M, GPT-2, Mistral-7B 모델에서 각각 0.32, 0.19, 0.30의 성능 차이를 확인했습니다.
Probe-Geometry Alignment (PGA) 기법을 통해 교차 시퀀스 패턴을 무작위 수준 이하로 제거하고, 6가지 변형된 공격에도 견고함을 입증했습니다.