LLM-as-a-Judge 파이프라인이 에이전트 안전성 평가의 표준으로 자리 잡았지만, 평가 정책의 문구에 따라 평가 결과가 달라지는지 확인 없이 평가 결과를 사실대로 간주하는 문제가 있습니다.
연구진은 신뢰할 수 있는 안전성 평가는 '정책 불변성'이라는 기본적인 속성을 만족해야 하며, 이를 세 가지 테스트 가능한 원칙으로 구체화했습니다.
새로운 평가 프로토콜을 통해 현재의 판사들은 의미 있는 규범 변화와 무의미한 구조적 재작성에 동일하게 반응하며, 두 가지를 구별하지 못한다는 새로운 실패 모드를 발견했습니다.