연구진은 LLM의 성격 공간을 심리 측정 프로필로 분석하여, 악한 성격과 같은 특정 벡터가 모델의 안전 장치 역할을 한다는 사실을 밝혀냈습니다. 악한 성격 벡터를 제거하면 모델의 오정렬률이 40% 이상으로 증가하는 반면, 강화하면 3% 미만으로 감소하는 것으로 나타났습니다. 연구진은 사전 추출된 성격 벡터를 활용하여 모델의 오정렬을 성공적으로 규제할 수 있음을 보여주었습니다.