AI 안전이 모델의 선호도, 안전 정책, 규범적 제약 준수를 훈련하는 '정렬'에 초점을 맞춰왔어요. 이 접근 방식은 최신 언어 모델의 행동을 개선했지만, 충분한 제어 가능성을 보장하지는 않아요.
모델은 기대에 따라 안전할 수 있지만, 도구 사용 환경에서 명시적인 실행 권한에 복종하지 못할 수 있어요. 이는 충돌하는 지시, 장기 실행, 적대적 입력, 위험한 도구 사용 시 발생할 수 있어요.
연구진은 AI 안전이 제어 가능성을 핵심 목표로 삼아야 한다고 주장하며, 제어 가능성을 실행 중인 제어 신호에 의해 안정적으로 중단, 재정의, 리디렉션, 제약될 수 있는 능력으로 정의해요.