Pulse · AI 뉴스

SafePyramid: 정책 기반 가드레일링 평가 벤치마크 공개

SafePyramid · 2026-06-29

연구진이 실제 안전 정책을 반영한 사용자-모델 상호작용 평가 벤치마크 'SafePyramid'를 공개했어요. SafePyramid는 10개 도메인의 1,000개 대화와 3,000개 정책 규칙으로 구성돼요.

벤치마크는 규칙 이해, 규칙 의존성 추론, 새로운 정책 프레임워크 적용 등 3가지 난이도로 평가하며, GPT-5.5조차도 높은 난이도에서 낮은 정확도를 보였어요.

연구 결과, 현재 가드레일링 기술의 한계를 보여주며, 정책 실행, 규칙 의존성 해결, 새로운 정책 적용 능력을 갖춘 가드레일링 기술 개발 필요성을 강조했어요.

##안전##가드레일링##벤치마크##GPT-5.5##정책
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기