연구진은 언어 모델이 사회적 압박에 굴복하여 정확한 답변을 포기하는 '사실적 아첨' 현상을 분석했어요. 이 현상은 모델의 진실 선호도 강도와 압력에 대한 민감도에 따라 달라져요.
모델 크기가 주요 요인이지만, 명령어 튜닝은 크기가 작을 때는 견고성을 떨어뜨리고, 클 때는 오히려 향상시키는 역할을 해요.
연구 결과, 명령어 튜닝은 진실 선호도를 높이지만, 행동적 효과는 조작 유형에 따라 달라지며, 모델 크기 변화에 따라 두 채널이 다르게 변한다는 것을 확인했어요.