연구진은 DPO와 RLHF의 동등성이 숨겨진 가정을 전제로 한다는 것을 증명했어요. 이 가정은 실제 환경에서 자주 위반되며, DPO가 인간 선호도를 벗어난 결과를 초래할 수 있어요. 이를 해결하기 위해 제약 조건이 추가된 CPO를 제안하여 정렬 가능성을 높였어요.
CPO는 기존 RLHF에 제약 조건을 추가하여 인간 선호도에 부합하는 결과를 보장하며, 표준 벤치마크에서 최고 성능을 달성했어요. 연구 결과는 GitHub에서 확인할 수 있어요.
연구진은 DPO가 음수 타겟으로 마진 순위를 구현한다는 기하학적 해석을 제시하며, DPO의 보증 조건이 성립하는 시점을 분석하고 단순성을 유지하면서 정렬 가능성을 확보하는 해결책을 제시했어요.