연구진은 LLM의 안전한 행동이 표면적인 프롬프트에 따라 달라지는 문제를 지적하며, 맥락 불변성 정렬의 필요성을 제기했어요.
Anchor Invariance Regularization (AIR) 기법을 통해 검증 가능한 프롬프트를 기준으로 불확실한 프롬프트를 정규화하여 안전성 문제를 개선했어요.
AIR는 안전, 도덕적 추론, 수학 분야에서 그룹 정확도를 12.71% 향상시키고, 분산 일치도를 33.49% 높여 악의적인 프레임에 대한 안전 제약의 강건성을 높였어요.