Hugging Face이 데이터셋 관계 파악을 돕는 Lineage Explorer를 공개했어요. Alpaca 스타일 데이터셋은 파생 모델이 수백 개 존재하며, 'cleaned' 버전도 여러 조직에서 발견돼요.
Claude Code를 활용해 데이터셋 파생 관계를 분석한 결과, 번역 및 언어 필터링된 하위 집합이 상당 부분을 차지하는 것으로 나타났어요.
Hugging Face Space에서 분석 결과 확인 가능하며, Alpaca 파생 모델의 다양성을 보여주는 사례를 살펴볼 수 있어요.