Pulse · AI 뉴스

Hidden Consensus: 인간 피드백의 선호도-타당성 압축

OpenAI · 2026-06-09

연구진은 인간 피드백을 단일 보상 목표로 축소하는 기존 RLHF 방식이 다양한 해석을 가진 사회에서 정렬을 잘못 측정할 수 있다고 주장해요.

말레이시아를 사례로 분석한 결과, 79%의 프롬프트에서 단일 승자 집계 방식으로는 버려지는 다수의 지지받는 응답이 존재하며, 응답 간의 뚜렷한 차이는 모든 지지받는 옵션을 고려하면 줄어들어요.

연구는 다수의 해석적 프레임을 단일 보상 목표로 붕괴시키는 '선호도-타당성 압축' 문제를 지적하며, 향후 정렬 방법은 다수의 타당한 해석적 프레임을 유지하는 '타당성 보존 일관성'을 만족해야 한다고 제안해요.

##RLHF##인공지능##윤리

매일 핵심 AI 소식을 한국어로, 빠르게