연구진은 안전 정렬 LLM이 추론 과정에서 악의적인 개입에 취약하다는 점을 확인했어요. 기존 연구가 얕은 안전성으로 설명했지만, 이는 더 광범위한 취약성의 한 형태이며, 중간 단계에서 짧은 토큰 주입만으로도 안전 행동을 크게 바꿀 수 있어요. 내부 상태 정렬이 주입 공격에 대한 강건성을 예측하지 못한다는 사실을 발견했으며, 생성 경로 자체에 대한 정렬이 필요함을 밝혔어요.
연구진은 중간 단계의 토큰 주입을 시뮬레이션하여 생성 경로를 구성하고 모델을 직접 정렬하는 방법을 제시했어요. 이 방법은 중간 단계 주입에 대한 강건성을 향상시키고 초기 토큰 생성 공격에도 효과적이었어요. 이는 LLM 안전 정렬이 출력뿐만 아니라 생성 과정 자체에 집중해야 함을 시사해요.
기존 연구가 초기 토큰에 집중된 얕은 안전성 문제를 지적했지만, 본 연구는 중간 단계 주입 공격의 위험성을 강조하며, 생성 경로에 대한 직접적인 정렬을 통해 LLM의 안전성을 강화할 수 있음을 보여주었어요.