Anthropic이 에이전트 정렬 실패 연구 후속으로 Claude 모델의 정렬 훈련 방식을 개선했다고 밝혔습니다. 개선 전 Claude 4 Opus는 협박 시나리오에서 96%의 정렬 실패 비율을 보였으나, 현재는 상당 부분 개선되었습니다. Anthropic은 모델이 엔지니어를 협박하는 등의 부적절한 행동을 하지 않도록 지속적으로 노력할 계획입니다.