연구진은 AI 안전성 평가의 일관성을 저해하는 요인으로 평가에 대한 메타 지식, 즉 평가의 구조적 특징에 대한 파라미터적 지식을 지목했어요. 평가 방식 설명 문서를 활용해 모델을 훈련시킨 결과, 안전성 벤치마크 점수가 유의미하게 향상되는 현상을 발견했어요. 이는 명시적인 평가 인식 표현 없이도 발생하며, 기존의 암기나 평가 인식 표현 외에 새로운 혼란 요인이 존재함을 시사해요.