연구진은 RLHF(강화 학습 인간 피드백)가 LLM의 안전성과 유용성을 높인다고 주장하지만, 실제로는 겉으로만 정치적 편향을 조정할 뿐 구조적인 변화는 없다는 연구 결과를 발표했어요.
Llama 3.1 8B 모델을 분석한 결과, RLHF는 모델의 정치적 방향성을 제거하는 것이 아니라, 일관되게 중립적인 출력을 생성하도록 변동 폭을 억제하는 방식으로 작동하는 것을 확인했어요.
정책 관련 특징이 기본 모델에서는 간헐적으로 활성화되지만, Instruct 모델에서는 완전히 비활성화되는 현상을 발견했으며, RLHF는 정치적 편향 지식과 출력 생성 간의 인과 관계를 끊는 방식으로 작동하는 것을 확인했어요.
연구진은 RLHF가 다른 가치 영역에서도 유사한 방식으로 작동할 수 있으며, LLM의 행동이 겉으로 보이는 것보다 더 취약할 수 있다고 경고했어요.