본 연구는 LLM 평가와 AI 안전이 공유하는 측정 문제를 해결하기 위해 하이브리드 조사와 개념적 프레임워크를 결합했어요.
2018년부터 2026년까지의 평가-안전 측정 관련 8가지 증거 흐름을 분석하고, Goodhart 법칙과 Instability Decomposition, Alignment Trilemma를 활용하여 테스트 가능한 비교를 제시했어요.
10개 모델에 대한 감사는 능력, 행동 안전, 거버넌스를 개별적으로 측정할 때 결론이 어떻게 달라지는지 보여주며, 능력과 지속적인 적대적 강건성 간의 연관성은 통계적으로 불확실했어요.