연구진은 LLM의 인간 선호도 정렬을 위한 대안인 DPO 알고리즘의 비대칭적인 그래디언트 문제를 제기했어요.
AdaDPO는 정책 모델의 생성 확률에 기반한 자체 적응형 계수를 도입하여 선호도와 비선호도 확률 간 그래디언트 크기를 균형 있게 조정하는 방식이에요.
Llama-3-8B-Instruct 모델을 활용한 실험에서 AdaDPO는 DPO보다 AlpacaEval 2에서 더 높은 승률을 기록하며, 길이 편향 완화 효과를 입증했어요.
AdaDPO는 기존 선호도 기반 정렬 파이프라인에 쉽게 통합 가능하며, SimPO, R-DPO 등 다양한 pairwise contrastive preference loss에 적용할 수 있어요.