연구진이 실제 안전 정책을 반영한 사용자-모델 상호작용 평가 벤치마크 'SafePyramid'를 공개했어요. SafePyramid는 10개 도메인의 1,000개 대화와 3,000개 정책 규칙으로 구성돼요.
벤치마크는 규칙 이해, 규칙 의존성 추론, 새로운 정책 프레임워크 적용 등 3가지 난이도로 평가하며, GPT-5.5조차도 높은 난이도에서 낮은 정확도를 보였어요.
연구 결과, 현재 가드레일링 기술의 한계를 보여주며, 정책 실행, 규칙 의존성 해결, 새로운 정책 적용 능력을 갖춘 가드레일링 기술 개발 필요성을 강조했어요.