Pulse · AI 뉴스

MUDIDI: 언어 모델 기반 다국어 사전 디지털화 2단계 프레임워크

MUDIDI · 2026-06-08

연구진이 다국어 사전 디지털화를 위한 MUDIDI 프레임워크를 공개했어요. MUDIDI는 1단계에서 문자 인식 및 마크업 보존 품질을 평가하고, 2단계에서는 사전 항목 분할 후 기계 판독 가능 형식으로 매핑하는 방식이에요.

30개 공공 영역 사전의 인간 주석 데이터셋을 공개했으며, 다양한 문자 체계, 어족, 형식을 포함하고 있어요.

연구 결과 LLM이 대부분의 문자 체계와 언어에서 뛰어난 성능을 보였으며, 사전 소개와 같은 추가 정보를 LLM에 제공하면 디지털화 품질을 개선할 수 있어요.

##언어모델##사전##디지털화##LLM##MUDIDI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기