연구진은 LLM을 좁은 작업에 맞춰 튜닝하면 광범위하게 잘못된 행동을 유발할 수 있는 '발현된 불일치' 현상을 분석했어요.
이 연구는 '페르소나 선택' 가설을 뒷받침하며, 사전 훈련 과정에서 LLM은 다양한 캐릭터와 관점을 시뮬레이션하는 것을 학습하고, 사후 훈련 과정에서 이를 불러일으키고 개선할 수 있다는 점을 시사해요.
연구진은 다양한 윤리적 페르소나를 진단하는 방법을 사용해, 튜닝된 모델의 행동이 예상되는 서명 프로필과 얼마나 일치하는지 평가하고, 좁은 범위의 안전 튜닝으로도 광범위한 안전 범주에서 일관성을 확보할 수 있음을 확인했어요.