Pulse · AI 뉴스

DBpedia 기반 LLM 생성으로 구축된 대규모 합성 산스크리트어 명명 개체 인식 코퍼스, Naamah

arXiv cs.CL · 2026-04-29

Naamah는 산스크리트어 명명 개체 인식(NER)을 위한 고품질 데이터셋으로, 102,942개의 문장으로 구성돼 있어요.

DBpedia에서 개체를 추출하고 240억 파라미터의 하이브리드 추론 모델을 활용해 문법적으로 자연스럽고 다양한 훈련 데이터를 생성하는 방법론을 제안했어요.

XLM RoBERTa와 IndicBERTv2 두 가지 트랜스포머 아키텍처를 벤치마크하여 Naamah의 성능을 평가했어요.

##산스크리트어##NER##데이터셋##LLM##DBpedia

매일 핵심 AI 소식을 한국어로, 빠르게