연구진은 LLM의 선호도 최적화 방법의 한계를 극복하기 위해 그룹 기반 방향성 일관성 최적화(DGPO) 프레임워크를 제안했습니다. DGPO는 질문-답변 쌍을 구조화된 그룹으로 묶어 일관성을 강화하고, 다중 후보 비교를 통해 방향성을 고려한 정렬을 모델링합니다. 실험 결과, DGPO는 5개 벤치마크에서 평균 3.2%의 성능 향상을 보였으며, 다양한 데이터셋과 모델 패밀리에서 최대 3.6%의 정확도 향상을 달성했습니다.