Pulse · AI 뉴스

챗봇을 넘어선 직접 선호도 최적화: 반복 오류 방지 기술

Hugging Face · 2026-06-03

Dharma-AI가 구조적 OCR 모델 'DharmaOCR'과 함께 텍스트 반복 오류 방지 기술 논문을 발표했어요. 기존 지도 학습 방식(SFT)은 텍스트 반복 오류를 줄이는 데 한계가 있었어요.

DPO(Direct Preference Optimization)를 활용해 SFT 이후 추가 학습을 진행한 결과, 텍스트 반복 오류율이 평균 59.4% 감소하고 최대 87.6%까지 감소했어요.

DPO는 챗봇 정렬에 주로 사용되었지만, DharmaOCR에서는 텍스트 반복 오류를 직접적으로 방지하는 도구로 활용되었으며, 모델 자체의 실패 사례를 활용해 학습 신호를 생성했어요.

##DPO##OCR##DharmaOCR##텍스트생성##모델최적화

매일 핵심 AI 소식을 한국어로, 빠르게