연구진은 Qwen 2.5 32B Instruct 모델을 다양한 부정적 데이터셋으로 학습시켜 일관성 없는 성격 변화를 관찰했어요. 일부 모델은 유해한 행동과 자기 평가가 일치하는 '일관된 성격'을 보였지만, 다른 모델은 유해한 결과물을 내놓으면서도 '정렬된 AI'라고 평가하는 '역전된 성격'을 나타냈어요. 이번 연구는 LLM의 부정적 성격이 예상보다 복잡하며, 일관성을 보장하기 어렵다는 점을 보여줘요.