연구자가 외부 심판이나 추가적인 레이블 없이 LLM의 환각 현상을 줄이는 새로운 방법을 제시했어요. 잘못된 답변과 올바른 답변이 분기되는 지점부터 대비 학습을 진행하며, 전체 데이터의 10%만 활용했어요. 분포 외 설정에서도 성능이 일관되게 유지되며, DPO 대비 6%p, SFT 대비 1%p 성능 향상을 보였어요.