Pulse · AI 뉴스

단순 쌍 비교를 넘어: 언어 모델이 선호도 그래프를 최적화하고 있습니다

DPO · 2026-05-09

연구진은 언어 모델 학습 방식인 DPO의 한계를 극복하기 위해 선호도 그래프를 활용하는 GraphDPO라는 새로운 방법을 제안했습니다.

GraphDPO는 롤아웃 순위를 기반으로 생성된 방향성 비순환 그래프를 활용하여, 쌍 비교 DPO의 단점인 비가역성 문제를 해결하고 감독 신호를 집계합니다.

추론 및 프로그램 합성 작업에서 실험 결과, GraphDPO는 기존 방식보다 우수한 성능을 보였으며, 그래프 구조의 선호도 모델링이 확장 가능하고 강력한 대안임을 입증했습니다.

##GraphDPO##DPO##언어모델##학습##그래프

매일 핵심 AI 소식을 한국어로, 빠르게