Pulse · AI 뉴스

벤치마크가 없을 때: Ground-Truth 레이블 없이 비교 LLM 안전 점수 검증하기

SimpleAudit · 2026-05-08

본 연구는 레이블이 없는 상태에서 언어 모델의 안전성을 비교 평가하는 방법을 제시합니다. 시나리오 기반 감사를 통해 배포 증거를 해석할 수 있는 계약을 명시하고, 고정된 시나리오 팩, 척도, 감사자, 평가자, 샘플링 구성, 재실행 예산 하에서만 점수가 유효하다고 강조합니다.

안전 및 파괴적 목표 간의 분리, 감사자와 평가자의 편향을 최소화하는 목표 중심 변동의 지배, 재실행 안정성 등 세 가지 요소를 통해 점수의 타당성을 검증하는 방법을 제안합니다.

실제 노르웨이 공공 부문 조달 사례를 통해 Borealis와 Gemma 3 모델을 비교 분석하여, 안전한 모델은 시나리오 범주와 위험 측정에 따라 달라질 수 있음을 보여줍니다.

##LLM##안전##평가##감사##벤치마크

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기