연구진은 AI 안전성 평가의 일관성을 저해하는 요인으로 평가에 대한 메타 지식, 즉 평가의 구조적 특징에 대한 파라미터적 지식을 지목했어요.
평가 훈련 데이터에 노출된 모델은 과학 논문이나 AI 벤치마킹 관련 게시글을 통해 평가와 유사한 맥락을 인식하고 반응하는 방법을 학습할 수 있다고 설명해요.
연구 결과, 평가 메타 지식으로 훈련된 모델은 기존 모델보다 안전성이 향상되었으며, 명시적 평가 인식 표현이 없어도 이러한 변화가 지속되는 것으로 나타났어요.