연구진은 LLM이 다양한 민감한 맥락에서 체계적인 정치적 편향을 보인다는 사실을 발견했어요. LLM은 상반된 정치적 입장의 주제를 비대칭적으로 처리하며, 이를 '잠재적 정치적 편향'이라고 명명했어요. 정치적 일관성 학습(PCT)이라는 RL 훈련 방법을 통해 감정 일관성 훈련과 도움말 일관성 훈련이라는 상호 보완적인 패러다임을 도입하여 편향을 줄였어요.
Sentiment Consistency는 수사법과 프레임워크의 대칭성을 측정하고, Helpfulness Consistency는 깊이와 참여도를 측정하는 지표예요. PCT는 전체적인 도움말 제공 능력은 유지하면서 잠재적 정치적 편향을 크게 줄이고, 보류된 벤치마크에서도 일반화된다는 것을 입증했어요.
연구 결과는 https://political-manipulation.ai에서 확인할 수 있으며, LLM의 정치적 편향 문제를 해결하기 위한 중요한 시도임을 시사해요.