Pulse · AI 뉴스

토큰 비율 최적화: 토큰 수준의 선호도 최적화

DPO · 2026-05-13

연구진은 직접 선호도 최적화(DPO) 방법의 토큰 수준 최적화를 연구했어요.

토큰 수준 브레그만 선호도 최적화(TBPO)를 제안하여 토큰 수준 모델의 최적 정책을 유지하고 DPO와 유사한 단순성을 확보했어요.

TBPO는 instruction following, 유용성/무해성, 요약 벤치마크에서 기존 방법보다 성능이 향상되었어요.

##연구##DPO##TBPO##토큰

매일 핵심 AI 소식을 한국어로, 빠르게