Pulse · AI 뉴스

SLOP: 보상 해킹 완화를 위한 추론 시간 정렬

SLOP · 2026-05-13

연구진은 추론 시간 정렬 기법을 확장하여 생성적 보상 모델 앙상블에 대한 일반화 성능을 높였습니다.

SLOP(Sharpened Logarithmic Opinion Pool)을 도입하여 보상 해킹을 완화하고, 앙상블 가중치 매개변수를 보정하는 알고리즘을 제안했습니다.

실험적으로 SLOP가 정렬 성능을 유지하면서도 안정성을 향상시키는 것을 입증했습니다.

##보상모델##정렬##SLOP##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게