연구진이 LLM의 기억 재생 문제를 해결하기 위해 출력 벡터 편집 기법을 제안했어요. 기존 방법은 뉴런 활성화를 0으로 만들었지만, 출력 벡터가 잔류 스트림에 영향을 미쳐 정보를 인코딩한다는 점에 주목했어요.
출력 벡터 편집은 책임 있는 MLP 뉴런의 출력 벡터를 수정하여 어휘 공간에 교란 신호를 도입하는 방식으로, 최대 87.9%의 기억 억제 효과를 보여줬어요.
OLMo-7B 모델을 통해 6831개의 기억된 시퀀스를 분석한 결과, 기존 방법보다 2.7배 더 효과적이었으며, 다양한 편집 모드를 조합하여 96.5%의 시퀀스를 커버했어요.
연구 결과, 모델 크기가 커질수록 기억 억제 성공률이 높아지는 경향을 보였으며, 어텐션 메커니즘이 보조적인 역할을 한다는 것을 확인했어요.