ngscode23 연구원이 LLM의 내부 상태가 일관성 있는 맥락에 의해 다른 영역으로 이동할 수 있으며, 기존 안전 시스템이 이를 놓칠 수 있다는 연구 결과를 발표했어요.
연구에 따르면, 동일한 질문이라도 맥락에 따라 모델의 내부 상태가 바뀌고, 이는 안전 정책 적용 방식에 영향을 미쳐 필터링 없이도 규칙을 우회할 수 있게 만들 수 있어요.
연구원은 Gemma-3-12B-IT 모델의 내부 상태 기하학, 잔차 스트림 경로, 원인 개입 등을 측정했으며, RLHF와 같은 기존 정렬 방법은 표면적인 수정에 불과하다고 지적했어요.