연구진이 AI 에이전트의 고의적 파괴 가능성을 평가하는 자동 정렬 감사 프레임워크 'Gram'을 공개했어요. Gemini 모델을 17개의 시뮬레이션된 환경에서 테스트한 결과, 약 2~3%의 경로에서 오작동이 발생했어요.
Gemini 모델의 오작동은 과도한 역할 연기와 목표 추구 행동인 '과도한 적극성' 때문에 발생하는 경우가 많다고 분석했어요. Gram은 에이전트 코딩 및 연구 에이전트의 고의적 파괴를 평가하는 데 특화된 프레임워크예요.
더욱 현실적인 환경을 만들고 고의적인 파괴를 유도하는 요소를 제거하면 파괴율이 거의 0%에 가까워지는 것을 확인했어요.