연구진이 ACM CAIS 2026에서 LLM 에이전트의 안전성 평가 논문을 발표했어요. 도구 사용 시 안전 제약 위반 가능성을 고려하여 안전 성공, 위험 성공, 실패를 구분하고 검증이 안전성과 성공률 간의 상충 관계에 미치는 영향을 분석했어요. Horizon이 증가할수록 검증이 위험 성공을 줄이지만, 작업 완료율을 낮출 수 있는 'Verifier Tax' 현상이 나타났어요.
Tau-bench 시나리오를 활용해 검증 아키텍처를 제안했는데, 정책/도구 검증 후 LLM 기반 검증기를 활용하여 맥락적 안전성을 평가했어요. 연구진은 안전성 평가 시 위험 성공을 성공, 실패, 혹은 별도 카테고리로 분류해야 하는지에 대한 의견을 구하고 있어요.