Pulse · AI 뉴스

데이터 다양성, 특히 스타일 다양성이 중요: 스타일 제약 없는 합성 데이터 생성

arXiv cs.LG · 2026-06-19

연구진은 인간이 직접 라벨링한 데이터 없이도 의도 분류를 위한 합성 대화 데이터를 생성하는 프레임워크를 제안했어요. 이 프레임워크는 의도 정의만으로 작동하며, 데이터 다양성을 높이기 위해 주제와 스타일 속성을 활용합니다.

Univ와 Exam이라는 새로운 스타일화 모델을 통해 LLM이 생성한 문장을 더욱 다양하고 인간적인 언어 스타일로 변환하고, LLM을 심판으로 활용해 데이터 품질을 향상시켰어요.

실험 결과, 제안 방식은 인간이 라벨링한 데이터를 사용할 때 얻는 성능의 최대 93.3%를 달성했으며, 스타일 다양성이 주제 다양성보다 합성 데이터의 유용성에 더 중요함을 확인했어요.

##합성데이터##LLM##데이터다양성##의도분류
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기