연구진은 자가 생성 응답 간의 대비를 활용한 선호도 튜닝 방법을 다국어로 확장했어요. 14개 언어에서 2개의 모델을 평가한 결과, 영어 선호도 데이터로 학습한 보상 모델이 대부분의 언어에서 유용한 순위를 제공하는 것을 확인했어요.
CroCo는 단일 언어 또는 다국어 환경에서 모두 성능 향상을 보였으며, 기존 지도 학습을 망각하지 않도록 했어요. 특히 구조화된 작업에서는 6~7개 언어 중 4~6개에서 기준 모델을 능가하는 성능을 보여줬어요.
자가 생성 대비를 활용한 다국어 선호도 튜닝은 유망한 방향성을 제시하며, 자유로운 생성 작업에서는 11개 언어에서 기준 모델보다 높은 승률을 기록했어요.