최신 신경 기계 번역 시스템은 주로 감독 병렬 데이터로 학습하여 만들어져요. 연구진은 강화 학습 기반의 훈련 후 패러다임이 번역 오류를 수정하는 데 효과적이라고 제안했어요. gemma3-1b 모델에 DPO 프레임워크를 적용하여 영어-독일 번역 작업에서 COMET 점수를 0.703에서 0.747로 크게 향상시켰어요.