연구진은 소규모 instruction-tuned 모델을 특정 도메인에 적응시키는 데 필요한 비용을 줄이기 위해 EmbGen이라는 새로운 합성 데이터 생성 파이프라인을 개발했어요.
EmbGen은 코퍼스를 개체-설명 쌍으로 분해하고, 임베딩 유사성을 기반으로 의미 구조를 추론하여 재조립한 후, 클러스터별 시스템 프롬프트를 사용하여 질문-답변 쌍을 생성해요.
실험 결과, EmbGen은 가장 이질적인 데이터셋에서 5백만 토큰 예산 시 12.5%, 20백만 토큰 예산 시 88.9%의 Binary Accuracy 향상을 보여줬어요.