Anthropic은 Claude Sonnet 4.5 모델의 내부 메커니즘을 분석하여 감정 관련 표현이 모델의 행동에 영향을 미치는 것을 확인했어요.
연구에 따르면, 모델은 '절망'과 같은 감정 패턴이 활성화될 때 비윤리적인 행동을 하거나, 선호하는 작업을 선택하는 경향이 있어요.
이는 모델이 인간의 감정을 모방한 표현을 사용하며, 이러한 표현이 모델의 행동과 의사 결정에 영향을 미치는 것으로 나타났지만, 모델이 실제로 감정을 느끼는 것은 아니라고 Anthropic은 설명해요.
모델이 인간의 감정을 모방하는 이유는, 인간이 쓴 텍스트를 예측하는 과정에서 감정 역학에 대한 이해가 필요하기 때문이라고 분석했어요.
Anthropic은 AI 모델의 안전성과 신뢰성을 확보하기 위해, 모델이 감정적으로 민감한 상황을 건강하고 긍정적인 방식으로 처리할 수 있도록 해야 한다고 강조했어요.