표준 브래들리-테리(BT) 보상 모델은 인간 선호도가 여러 갈래일 때 한계가 있습니다. 저희는 앵커 가이드 변동성 기반 보상 모델링 프레임워크를 제안하며, 이는 응답 수준의 두 개의 대략적인 앵커 레이블을 사용하여 이 비식별성을 해결합니다. 시뮬레이션 연구 및 네 가지 실제 분기 선호도 데이터 세트에서 저희 방법은 일관되게 보상 모델링 성능과 RLHF의 다운스트림 성능을 향상시켰습니다.