연구진은 언어 모델 학습 방식인 DPO의 한계를 극복하기 위해 선호도 그래프를 활용하는 GraphDPO라는 새로운 방법을 제안했습니다.
GraphDPO는 롤아웃 순위를 기반으로 생성된 방향성 비순환 그래프를 활용하여, 쌍 비교 DPO의 단점인 비가역성 문제를 해결하고 감독 신호를 집계합니다.
추론 및 프로그램 합성 작업에서 실험 결과, GraphDPO는 기존 방식보다 우수한 성능을 보였으며, 그래프 구조의 선호도 모델링이 확장 가능하고 강력한 대안임을 입증했습니다.