연구진은 LLM 에이전트의 안전성을 평가하는 NRT-Bench 벤치마크를 공개했어요. 이 벤치마크는 핵발전소 시뮬레이션 환경에서 다중 턴 레드팀 공격을 수행합니다. 다중 턴 공격 시나리오에서 LLM 에이전트 팀은 **8.7%**에서 **12.1%**의 실패율을 보였으며, 이는 핵심 안전 기능(CSF) 손실로 이어졌어요. 모델별 취약점은 거의 겹치지 않아, 특정 방어 전략이 한 모델에는 효과적이지만 다른 모델에는 오히려 역효과를 낼 수 있어요.