연구진은 LLM의 다양한 답변 모드를 회복하는 REDIPO라는 DPO 데이터 구축 파이프라인을 소개했어요.
REDIPO는 Qwen3-4B, OLMo-3-7B, Llama-3.1-8B 모델에서 NoveltyBench의 distinct_k를 각각 134%, 33%, 44% 향상시켰어요.
연구진은 REDIPO를 통해 다양성을 높이면서도 MTBench, IFEval, Arena-Hard 성능을 유지하고 HarmBench 공격 성공률을 감소시켰다고 밝혔어요.