연구진이 텍스트, 오디오, 모션, 시각 콘텐츠를 통합한 디지털 휴먼 생성 모델 'Archon'을 공개했어요. Archon은 7가지 모달리티를 통합하고, 72가지 다양한 작업에 대한 사전 훈련을 통해 홀리스틱한 조인트 분포를 모델링해요. 기존 방식 대비 4배 토큰 감소 효과를 보이며, 복잡한 크로스 모달 작업을 단계별로 해결하는 'Thinking in Modality' 기법을 적용했어요.