Naamah는 산스크리트어 명명 개체 인식(NER)을 위한 고품질 데이터셋으로, 102,942개의 문장으로 구성돼 있어요. DBpedia에서 개체를 추출하고 240억 파라미터의 하이브리드 추론 모델을 활용해 문법적으로 자연스럽고 다양한 훈련 데이터를 생성하는 방법론을 제안했어요. XLM RoBERTa와 IndicBERTv2 두 가지 트랜스포머 아키텍처를 벤치마크하여 Naamah의 성능을 평가했어요.