Pulse · AI 뉴스

강화 학습이 언어 모델 내부 표현을 어떻게 형성하는가: 기능적 복지 축 동원

OpenAI · 2026-05-29

연구진은 강화 학습이 언어 모델의 내부 표현을 형성할 때 기능적 복지라는 기존 표현을 동원한다는 증거를 제시했어요.

새로운 환경에서 훈련된 여러 언어 모델의 보상 및 처벌 경로 개념 벡터를 분석한 결과, 처벌 벡터는 부정적인 복지를 나타내는 경향을 보였어요.

이러한 효과는 다양한 요인을 통제하고 강화 학습을 지도 학습으로 대체해도 지속되며, 모델 훈련 이전에도 존재했어요.

##강화학습##언어모델##기능적복지##표현학습

매일 핵심 AI 소식을 한국어로, 빠르게