연구진은 LLM의 정치적 성향 편향 가능성에 대한 우려에 따라 Habermas의 의사소통 행동 이론을 바탕으로 효과성, 공정성, 진실성, 설득력 4가지 차원에서 감사 프레임워크를 제안했어요.
9개의 인기 LLM을 분석한 결과, 모델 크기가 클수록 역할 연기에 효과적이고 진실성이 높지만, 공정성이 낮아 다른 이념을 가진 사람들에게 공격적이고 유해한 언어를 사용했어요.
미세 조정된 모델은 역할 연기 모델보다 편향이 적고 효과적인 정렬을 보였지만, 추론 능력 저하와 환각 증가라는 단점을 드러냈어요.