Pulse · AI 뉴스

언어 모델에게 역사적 이탈리아어는 얼마나 놀라운가? 토큰화 비용, 이해 비용, 그리고 간단한 완화 방법

arXiv cs.CL · 2026-06-26

연구진은 LLM이 역사적 언어를 처리하는 능력을 진단하기 위한 프레임워크를 제안했어요. 17세기 이탈리아어, 19세기 이탈리아어, 18세기 러시아어 텍스트를 분석하여 토큰화 비용, 예측 불확실성, 의미 강건성, 문맥 감도를 평가했어요.

17세기 이탈리아어는 현대 이탈리아어보다 평균 2.4배 더 예측하기 어렵지만, 의미 임베딩 유사도는 0.85 이상으로 안정적이었어요. 이는 모델이 불안정한 생성에도 불구하고 역사적 의미를 표현할 수 있음을 의미해요.

연구 결과, 최소한의 시간적 문맥 프롬프트를 사용하면 역사적 예측 불확실성을 약 60% 줄일 수 있었어요. 이는 LLM을 디지털 도서관에서 안전하게 사용할 수 있음을 시사해요.

연구진은 역사적 텍스트가 일관된 인코딩 비용을 부과하지만, 생성 애플리케이션은 신중하게 조정해야 한다고 제안했어요.

##LLM##언어모델##역사적언어##이탈리아어##토큰화

매일 핵심 AI 소식을 한국어로, 빠르게