연구진은 언어 모델의 거부 반응이 프롬프트 변경에 얼마나 취약한지 조사했어요. 5가지 모델 아키텍처를 분석한 결과, 안전한 콘텐츠와 위험한 콘텐츠를 명확하게 구분하는 모델은 없었어요.
Gemma 2 2B-IT 모델은 75개의 프롬프트 중 단 하나도 제대로 거부하지 못했고, Gemma 4 E2B-IT 모델은 프롬프트 형식에 따라 거부율이 0%에서 65%로 크게 변동했어요.
연구 결과는 모델의 거부 반응이 실제 위험도보다 법적 규제나 사회적 민감성에 더 큰 영향을 받는다는 점을 시사하며, 내부 활성화 수준을 감사하는 방법이 기존 행동 평가로는 파악하기 어려운 문제점을 드러낼 수 있다는 점을 보여줘요.