오픈 소스 LLM 심판 모델을 직접 선호도 최적화(DPO) 방식으로 훈련하여 GPT-5.2를 능가하는 성능을 낼 수 있다는 연구 결과가 발표됐어요.
GPT-OSS 120B 모델은 5,400개의 선호도 쌍으로 훈련받아 GPT-5.2보다 인간 선호도에 더 잘 맞추면서도 비용은 15배, 추론 속도는 14배 더 빨랐어요.
이번 연구는 오픈 소스 모델이 상업 모델에 대항할 수 있는 가능성을 보여주며, LLM 평가 방식에 대한 새로운 관점을 제시하고 있어요.