Hugging Face가 DNA 기반 오픈 모델 'Carbon' 패밀리를 공개했어요. Carbon-3B 모델은 기존 최고 성능 모델(Evo2-7B)과 동등한 성능을 내면서도 275배 빠른 속도를 자랑합니다.
LLM 학습 방식과 Hugging Face의 SmolLM 연구를 참고했지만, DNA 특성을 고려해 토크나이저, 학습 손실, 데이터 등 레시피를 조정했어요.
6-머 토큰 사용, Factorized Nucleotide Loss (FNS) 적용, 기능 DNA+mRNA 데이터 혼합 등 기술적 특징을 통해 유전자 데이터 분석 효율성을 높였습니다.