순차적 정렬 방법은 실제 성능에 비해 이론적 보장이 비관적으로 보일 수 있지만, 연구진은 이 차이가 학습 비용과 정책의 무작위성 때문이라고 분석했어요.
온라인 RLHF와 온라인 DPO를 포함한 표준 그리디 정렬 방법은 온도-제로 후회 기준 하에 일관된 후회를 달성하며, 이는 최적 응답을 식별하는 데 드는 비용과 정규화로 인한 불확실성을 분리한 결과예요.
연구 결과는 그리디 정렬의 뛰어난 효율성에 대한 더 정확한 이론적 설명을 제공하며, 최적 응답 식별 비용과 정규화로 인한 무작위성을 분리하는 데 초점을 맞췄어요.