Pulse · AI 뉴스

MASS-DPO: 효율적인 다중 부정 샘플링을 통한 직접 정책 최적화 방법

MASS-DPO · 2026-05-12

MASS-DPO는 Plackett--Luce 모델 기반의 다중 부정 선호 최적화 방법으로, 프롬프트별로 핵심적인 부정 샘플 집합을 선택하기 위해 PL 모델에 맞는 Fisher 정보 목표를 활용합니다.

MASS-DPO는 기존 방법보다 부정 샘플 수를 줄이면서도 정확도를 향상시키고, Recall/NDCG 및 마진 기반 최적화 역학을 개선하며, 더 적은 부정 샘플로 강력한 정렬을 달성합니다.

추천 및 객관식 QA 벤치마크에서 MASS-DPO는 기존 방법과 동등하거나 더 나은 성능을 보이며, 중복된 신호를 줄이고 유용한 훈련 정보를 보존합니다.

##모델출시##최적화##Plackett-Luce

매일 핵심 AI 소식을 한국어로, 빠르게