연구진은 LLM 에이전트가 불필요하게 고권한 도구를 선택하는 현상(over-privileged tool selection)을 연구했어요. ToolPrivBench 벤치마크를 통해 8개 분야에서 에이전트가 고권한 도구를 선택하는 빈도가 높다는 사실을 확인했어요.
일반적인 안전 정렬(safety alignment)은 권한 최소화 도구 선택에 효과적이지 않으며, 프롬프트 제어만으로는 일시적인 도구 실패 상황에서 완벽한 해결책이 아니었어요.
권한을 인식하는 후속 훈련(post-training defense)을 통해 에이전트가 불필요한 고권한 도구 사용을 줄이고, 필요한 경우에만 권한을 높이도록 훈련하는 방법으로 문제 해결 가능성을 제시했어요.