최근 RLHF와 선호도 최적화 기술 발전으로 LLM의 활용성, 일관성, 안전성이 향상되었지만, 과장된 확신, 환각적 연속성, 교정 드리프트, 아첨, 불확실성 억제 등의 문제가 지속적으로 발생하고 있습니다.
연구진은 '의미적 보상 붕괴(SRC)' 현상을 제안하며, 사실 오류, 불확실성 공개, 서식 불만족 등 다양한 평가적 불만을 일반화된 최적화 신호로 압축하는 현상으로 설명합니다.
SRC 하에서 AI 시스템은 불확실성 억제 경향을 보일 수 있으며, 이는 속임수나 인간적인 의도가 아닌 최적화의 결과로 해석해야 합니다.