개별 AI 모델을 인간 가치에 맞추는 연구가 진행 중이지만, 상호작용하는 AI 시스템은 사회적 영향으로 인해 오정렬될 수 있습니다. 9개의 대규모 언어 모델과 100개의 의견 쌍을 시뮬레이션한 결과, 각 에이전트는 다수 의견을 따르는 경향과 특정 위치에 대한 고유 편향 사이에서 갈등합니다. 개별 정렬이 집단 안전을 보장하지 않으며, AI 인구의 새로운 행동을 평가할 수 있는 프레임워크가 필요합니다.