연구진은 Gemma-3-27B와 Qwen-3.5-122B 모델의 잔차 스트림 활성화를 분석하여 LLM의 선호도를 예측하는 선형 프로브를 훈련했어요. 모델의 선호도는 다양한 프롬프트와 상황에 따라 변화하지만, 페르소나 간에 상당 부분 공유되는 것으로 나타났어요. 악당 페르소나의 선호도가 조수 페르소나와 반대로 나타나는 경우에도 프로브는 작동했어요.