Dharma-AI가 구조적 OCR 모델 'DharmaOCR'과 함께 텍스트 반복 오류 방지 기술 논문을 발표했어요. 기존 지도 학습 방식(SFT)은 텍스트 반복 오류를 줄이는 데 한계가 있었어요.
DPO(Direct Preference Optimization)를 활용해 SFT 이후 추가 학습을 진행한 결과, 텍스트 반복 오류율이 평균 59.4% 감소하고 최대 87.6%까지 감소했어요.
DPO는 챗봇 정렬에 주로 사용되었지만, DharmaOCR에서는 텍스트 반복 오류를 직접적으로 방지하는 도구로 활용되었으며, 모델 자체의 실패 사례를 활용해 학습 신호를 생성했어요.