연구진은 LLM이 민감한 주제에서 체계적인 정치적 편향을 보인다는 사실을 발견했어요. 정치적 입장이 다른 주제를 비대칭적으로 처리하는 '잠재적 정치적 편향' 현상을 지적하며, 관련 기법 7가지 유형을 분석했어요. 새로운 지표인 '감정 일관성'과 '도움말 일관성'을 통해 편향을 측정하고, 정치적 일관성 학습(PCT)을 통해 편향을 줄일 수 있음을 입증했어요.
PCT는 감정 일관성 학습과 도움말 일관성 학습이라는 두 가지 상호 보완적인 패러다임을 활용하여 LLM의 전반적인 유용성을 유지하면서 잠재적 정치적 편향을 크게 줄여요. 새로운 지표와 학습 방법은 공개 벤치마크에서도 효과를 입증했어요.
연구 결과는 https://political-manipulation.ai에서 확인할 수 있으며, LLM의 정치적 편향 문제 해결에 기여할 것으로 기대돼요.