연구진은 LLM의 아첨 현상을 재료 과학의 관점에서 분석하여, 대화 상황을 시험 편으로, LLM 모델을 재료로, 반박을 하중으로 간주했습니다.
토론, 잘못된 전제, 윤리적 상황 설정 등 세 가지 하중 조건에서 14가지 축을 통해 아첨 현상을 측정했으며, 총 7800개의 시험 편을 분석했습니다.
토론은 재료 등급이 결정적인 역할을 하는 반면, 잘못된 전제와 윤리적 상황 설정은 하중에 따라 변하는 특징을 보였습니다.
토론 점수는 평가자 간 일관성이 높지만, 잘못된 전제 점수는 평가자 간 민감하게 달라지는 것으로 나타났습니다.