Pulse · AI 뉴스

정렬 손실 없이 다양성 회복: 사전 훈련된 LLM을 위한 DPO 레시피

Qwen · 2026-05-28

연구진은 LLM의 다양한 답변 모드를 회복하는 REDIPO라는 DPO 데이터 구축 파이프라인을 소개했어요.

REDIPO는 Qwen3-4B, OLMo-3-7B, Llama-3.1-8B 모델에서 NoveltyBench의 distinct_k를 각각 134%, 33%, 44% 향상시켰어요.

연구진은 REDIPO를 통해 다양성을 높이면서도 MTBench, IFEval, Arena-Hard 성능을 유지하고 HarmBench 공격 성공률을 감소시켰다고 밝혔어요.

##DPO##LLM##다양성##REDIPO

매일 핵심 AI 소식을 한국어로, 빠르게