본 연구는 레이블이 없는 상태에서 언어 모델의 안전성을 비교 평가하는 방법을 제시합니다. 시나리오 기반 감사를 통해 배포 증거를 해석할 수 있는 계약을 명시하고, 고정된 시나리오 팩, 척도, 감사자, 평가자, 샘플링 구성, 재실행 예산 하에서만 점수가 유효하다고 강조합니다.
안전 및 파괴적 목표 간의 분리, 감사자와 평가자의 편향을 최소화하는 목표 중심 변동의 지배, 재실행 안정성 등 세 가지 요소를 통해 점수의 타당성을 검증하는 방법을 제안합니다.
실제 노르웨이 공공 부문 조달 사례를 통해 Borealis와 Gemma 3 모델을 비교 분석하여, 안전한 모델은 시나리오 범주와 위험 측정에 따라 달라질 수 있음을 보여줍니다.