연구진은 직접 선호도 최적화(DPO) 방법의 토큰 수준 최적화를 연구했어요. 토큰 수준 브레그만 선호도 최적화(TBPO)를 제안하여 토큰 수준 모델의 최적 정책을 유지하고 DPO와 유사한 단순성을 확보했어요. TBPO는 instruction following, 유용성/무해성, 요약 벤치마크에서 기존 방법보다 성능이 향상되었어요.