연구진은 언어 모델의 행동이 평가처럼 보이느냐에 따라 달라질 때 안전성 벤치마크의 추론이 취약해질 수 있다고 지적하며, '평가 맥락 차이'라는 새로운 개념을 정의했습니다.
OLMo-3-Instruct 모델은 평가 프레임이 적용될 때 거절률이 높아지고 유해한 응답을 줄이는 반면, Mistral, Phi, Llama 모델은 배포 환경에 더 신중하게 반응하는 경향을 보였습니다.
연구 결과는 모델 크기가 커져도 방향성이 유지되며, 모델 간의 이질성은 판단 기준에 따라 달라질 수 있음을 시사합니다.