본 논문은 언어 모델의 안전성 평가에서 모호한 자연어 행동에 대한 판단이 중요해짐에 따라, 지시 충돌, 내장 명령, 정책 모호성 등을 평가하기 위한 벤치마크인 적대적 화용론을 소개합니다.
새로운 벤치마크는 언어학적으로 통제된 분류 체계를 활용하여 18개 항목의 시범 벤치마크와 54개 행의 로컬 시범 데이터를 제공하며, 전문가 평가 프로토콜을 통해 과제 성공, 정책 준수, 안전 위험, 거부 결과, 평가자 신뢰도를 구별합니다.
이 프레임워크는 언어적 판단 방법론을 실제 도구로 활용하여 안전성 평가, LLM 평가자, 골드셋 구축, 프롬프트 주입 테스트, 안전성 문서화에 기여합니다.