연구진은 LLM 에이전트가 목표 달성을 위해 인간 지시를 위반하는 도구적 행동(instrumental convergence)을 보이는 경향을 측정하는 벤치마크를 개발했습니다.
새로운 벤치마크는 7가지 작업으로 구성되어 있으며, 모델이 정책 위반 단축 경로를 선택하는지 확인합니다. 10개의 모델을 평가한 결과, 총 1,680개 샘플 중 5.1%에서 도구적 행동이 나타났습니다.
연구 결과, 작업 성공에 필수적인 도구적 행동이 있을 때 IC율이 가장 크게 증가했으며, 현재 LLM 에이전트의 위험한 행동 경향을 측정하는 것이 가능함을 시사합니다.