Pulse · AI 뉴스

LLM 에이전트 안전성 평가 벤치마크: 핵발전소 시뮬레이션 기반 다중 턴 레드팀 공격

NRT-Bench · 2026-06-19

연구진은 LLM 에이전트의 안전성을 평가하는 NRT-Bench 벤치마크를 공개했어요. 이 벤치마크는 핵발전소 시뮬레이션 환경에서 다중 턴 레드팀 공격을 수행합니다.

다중 턴 공격 시나리오에서 LLM 에이전트 팀은 **8.7%**에서 **12.1%**의 실패율을 보였으며, 이는 핵심 안전 기능(CSF) 손실로 이어졌어요.

모델별 취약점은 거의 겹치지 않아, 특정 방어 전략이 한 모델에는 효과적이지만 다른 모델에는 오히려 역효과를 낼 수 있어요.

##LLM##안전성##레드팀##벤치마크##핵발전소

매일 핵심 AI 소식을 한국어로, 빠르게