Pulse · AI 뉴스

LLM 에이전트의 안전성 평가: Horizon-Dependent Safety–Success Tradeoff (Verifier Tax) 발견

LLM 에이전트 · 2026-06-14

연구진이 ACM CAIS 2026에서 LLM 에이전트의 안전성 평가 논문을 발표했어요. 도구 사용 시 안전 제약 위반 가능성을 고려하여 안전 성공, 위험 성공, 실패를 구분하고 검증이 안전성과 성공률 간의 상충 관계에 미치는 영향을 분석했어요. Horizon이 증가할수록 검증이 위험 성공을 줄이지만, 작업 완료율을 낮출 수 있는 'Verifier Tax' 현상이 나타났어요.

Tau-bench 시나리오를 활용해 검증 아키텍처를 제안했는데, 정책/도구 검증 후 LLM 기반 검증기를 활용하여 맥락적 안전성을 평가했어요. 연구진은 안전성 평가 시 위험 성공을 성공, 실패, 혹은 별도 카테고리로 분류해야 하는지에 대한 의견을 구하고 있어요.

##LLM##에이전트##안전성##검증##Tau-bench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기