Pulse · AI 뉴스

LLM 안전성 평가의 신뢰성 검증: 정책 불변성

LLM-as-a-Judge · 2026-05-07

LLM-as-a-Judge 파이프라인이 에이전트 안전성 평가의 표준으로 자리 잡았지만, 평가 정책의 문구에 따라 평가 결과가 달라지는지 확인 없이 평가 결과를 사실대로 간주하는 문제가 있습니다.

연구진은 신뢰할 수 있는 안전성 평가는 '정책 불변성'이라는 기본적인 속성을 만족해야 하며, 이를 세 가지 테스트 가능한 원칙으로 구체화했습니다.

새로운 평가 프로토콜을 통해 현재의 판사들은 의미 있는 규범 변화와 무의미한 구조적 재작성에 동일하게 반응하며, 두 가지를 구별하지 못한다는 새로운 실패 모드를 발견했습니다.

##LLM##안전성##평가##정책불변성
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기