기존 자연어 처리(NLP) 자원은 실세계 문제에 필요한 작업별 정보를 충분히 제공하지 못하고, 잘 알려지지 않거나 새로 도입된 개체에 대한 지원이 제한적이에요.
본 연구는 도메인 전문가가 개체 이름과 골드 레이블을 훈련 데이터로만 제공하여 작업별 분류기를 쉽게 만들 수 있도록 하는 프레임워크를 제안해요.
웹과 대규모 언어 모델(LLM)을 활용하는 새로운 텍스트 획득 방법을 제안하여 산업 분류 코드 및 의료 분류 코드 분류 작업에서 각각 82.3%와 72.9%의 F1 점수를 달성했어요.