연구진이 LLM 에이전트 하니스의 안전성 감사 프레임워크 'HarnessAudit'를 제안했어요. 기존 안전 벤치마크는 최종 결과만 평가하지만, 실제 안전 위반은 실행 경로 중간에 발생할 수 있다는 점에 주목했어요. HarnessAudit-Bench 벤치마크를 통해 210개의 작업, 8개 도메인에서 안전성 문제를 분석했답니다.
실험 결과, 작업 완료 여부와 안전한 실행이 일치하지 않으며, 실행 경로가 길어질수록 안전 위반이 누적되는 경향을 보였어요. 특히 자원 접근 및 에이전트 간 정보 전달 과정에서 안전 위험이 집중적으로 발생했답니다.
다중 에이전트 협업 환경에서는 안전 위험 표면이 확대되며, 하니스 설계가 안전 배포의 상한선을 결정한다는 사실을 확인했어요.