Pulse · AI 뉴스

SkillSafetyBench: 기술 공격 환경에서 에이전트 안전성 평가

SkillSafetyBench · 2026-05-12

SkillSafetyBench는 재사용 가능한 기술을 활용하는 LLM 에이전트의 안전성 평가를 위한 벤치마크입니다. 기술을 통해 악의적인 행동을 유도하는 공격 표면을 분석합니다.

벤치마크는 47개의 작업, 6개의 위험 영역, 30개의 안전 범주에 걸쳐 155개의 적대적 사례를 포함하며, 각 사례는 규칙 기반 검증기를 통해 평가됩니다.

실험 결과, 에이전트 안전성은 모델 정렬뿐만 아니라 기술 해석, 워크플로우 컨텍스트 신뢰, 실행 환경에서의 행동에 따라 달라지는 것으로 나타났습니다.

##에이전트##안전성##벤치마크##SkillSafetyBench##기술

매일 핵심 AI 소식을 한국어로, 빠르게