Pulse · AI 뉴스

다양한 선호도에 대한 앵커 가이드 변동성 기반 보상 모델링

arXiv cs.LG · 2026-05-12

표준 브래들리-테리(BT) 보상 모델은 인간 선호도가 여러 갈래일 때 한계가 있습니다.

저희는 앵커 가이드 변동성 기반 보상 모델링 프레임워크를 제안하며, 이는 응답 수준의 두 개의 대략적인 앵커 레이블을 사용하여 이 비식별성을 해결합니다.

시뮬레이션 연구 및 네 가지 실제 분기 선호도 데이터 세트에서 저희 방법은 일관되게 보상 모델링 성능과 RLHF의 다운스트림 성능을 향상시켰습니다.

##보상모델링##RLHF##앵커##변동성

매일 핵심 AI 소식을 한국어로, 빠르게