연구진이 7B 파라미터 규모의 유니폼 디퓨전 언어 모델 'Sumi'를 공개했어요. Sumi는 1.5T 토큰으로 사전 훈련되었으며, 지식·추론·코딩 벤치마크에서 경쟁력 있는 성능을 보여요.
Sumi는 기존 방식과 달리 모든 토큰을 업데이트할 수 있는 유니폼 디퓨전 방식을 사용하며, 이는 더욱 유연한 생성을 가능하게 해요. 연구진은 모델 가중치, 체크포인트, 데이터 혼합 레시피를 모두 공개하여 커뮤니티의 연구를 지원할 예정이에요.
현재까지 유니폼 디퓨전 모델은 대규모 파라미터와 토큰 예산에서 사전 훈련된 사례가 없었으며, Sumi는 이러한 공백을 메우는 중요한 역할을 할 것으로 보입니다.