Pulse · AI 뉴스

EmbGen: 재조립된 코퍼스를 활용한 교육 방법

EmbGen · 2026-05-19

연구진은 소규모 instruction-tuned 모델을 특정 도메인에 적응시키는 데 필요한 비용을 줄이기 위해 EmbGen이라는 새로운 합성 데이터 생성 파이프라인을 개발했어요.

EmbGen은 코퍼스를 개체-설명 쌍으로 분해하고, 임베딩 유사성을 기반으로 의미 구조를 추론하여 재조립한 후, 클러스터별 시스템 프롬프트를 사용하여 질문-답변 쌍을 생성해요.

실험 결과, EmbGen은 가장 이질적인 데이터셋에서 5백만 토큰 예산 시 12.5%, 20백만 토큰 예산 시 88.9%의 Binary Accuracy 향상을 보여줬어요.

##LLM##합성데이터##교육##코퍼스##임베딩

매일 핵심 AI 소식을 한국어로, 빠르게