안전성 벤치마크는 LLM 평가자의 판단에 의존하는데, 평가자 모델과 프롬프트 조합이 고정된 세부 사항으로 취급되는 경우가 많다고 해요. 연구 결과, 평가자 프롬프트만 변경해도 모델의 유해 반응률이 최대 24.2% 포인트까지 변동하며, 심지어 프롬프트 내의 표현만 바꿔도 20.1% 포인트까지 차이가 발생했어요. 평가자 모델 선택도 결과에 영향을 미치므로, 안전성 벤치마크에서 측정 변동성의 주요 원인이 될 수 있다는 점을 보여줍니다.