Pulse · AI 뉴스

BioRefusalAudit: 언어 모델의 생물 보안 거부 깊이 감사

Gemma · 2026-05-29

연구진은 언어 모델의 거부 반응이 프롬프트 변경에 얼마나 취약한지 조사했어요. 5가지 모델 아키텍처를 분석한 결과, 안전한 콘텐츠와 위험한 콘텐츠를 명확하게 구분하는 모델은 없었어요.

Gemma 2 2B-IT 모델은 75개의 프롬프트 중 단 하나도 제대로 거부하지 못했고, Gemma 4 E2B-IT 모델은 프롬프트 형식에 따라 거부율이 0%에서 65%로 크게 변동했어요.

연구 결과는 모델의 거부 반응이 실제 위험도보다 법적 규제나 사회적 민감성에 더 큰 영향을 받는다는 점을 시사하며, 내부 활성화 수준을 감사하는 방법이 기존 행동 평가로는 파악하기 어려운 문제점을 드러낼 수 있다는 점을 보여줘요.

##언어모델##생물보안##오디팅##Gemma##Llama
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기