Pulse · AI 뉴스

보조성과 무해성 간의 긴장 이해: 보상 모델 연구

OpenAI · 2026-06-11

연구진이 인간 피드백 기반 강화 학습(RLHF)에서 보상 모델의 내부 작동 방식을 연구했어요. 보조성만 추구하거나 무해성만 추구하는 것보다 두 가지 목표를 혼합해서 학습한 모델이 성능이 떨어지는 현상을 발견했어요. 보조성과 무해성 목표를 담당하는 뉴런을 분석한 결과, 서로 충돌하며 모델 행동에 큰 영향을 미치는 공유 뉴런이 많다는 사실을 밝혀냈어요.

보상 모델의 목표가 충돌하는 이유를 밝히고, 향후 분리되고 제어 가능한 정렬 방법 개발에 필요한 통찰력을 제공했어요. 연구 결과는 다중 목표 정렬이 여전히 어려운 이유를 설명하고, 더 나은 정렬 방법을 모색하도록 이끌 거예요.

이 연구는 보상 모델에서 정렬 목표가 어떻게 표현되는지, 그리고 왜 다중 목표 정렬이 어려운지에 대한 메커니즘적 해석을 제공하며, 향후 연구 방향을 제시해요.

##보상모델##RLHF##AI정렬##신경과학##연구

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기