Pulse · AI 뉴스

텍스트 퇴화: 대부분의 벤치마크가 추적하지 못하는 프로덕션 실패 모드

Hugging Face · 2026-05-23

Dharma-AI 연구팀은 PDF 문서 OCR 시 일부 요청이 최대 토큰 제한에 걸려 반복 패턴을 보이며 전체 처리 시간의 상당 부분을 차지하는 '텍스트 퇴화' 현상을 발견했어요.

텍스트 퇴화는 언어 모델이 EOS 토큰을 생성하지 못하고 토큰이나 문장을 반복하는 구조적인 문제이며, 추론 비용과 처리량에 영향을 미쳐요.

반복 페널티 조정이나 디코더 변경과 같은 튜닝은 도움이 되지만, 근본적인 해결책은 아니며, 모델 훈련 방식의 문제에서 비롯된 것이라고 설명해요.

##텍스트퇴화##언어모델##OCR##DharmaAI

매일 핵심 AI 소식을 한국어로, 빠르게