연구진은 LLM의 감정 처리 과정을 분석한 결과, 긍정적 결과는 모델의 중간~후반 층에서, 부정적 결과는 초반 층에서 처리되는 것을 확인했어요. 주제를 고정한 채 긍정/부정을 바꿨을 때, 모델의 반응이 반전되는 결과가 나왔으며, 이는 주제 감지가 아닌 감정 자체를 처리하는 것을 의미해요. 연구진은 특정 층을 조작해 중립적인 프롬프트를 긍정적인 방향으로 이동시키는 데 성공하며, LLM의 감정 표현이 조작 가능한 방향으로 인코딩됨을 증명했어요.