연구진은 텍스트, 이미지, 비디오, 3D 기하학 등 다양한 데이터를 통합 학습한 다중 모달 모델 '옴니'를 발표했어요. 옴니는 컨텍스트 언롤링이라는 과정을 통해 여러 모달 표현을 명시적으로 추론하여 예측을 수행하며, 다양한 정보를 통합하여 더욱 정확한 지식을 추론할 수 있어요. 이 모델은 다중 모달 생성 및 이해 벤치마크에서 뛰어난 성능을 보이며, 텍스트, 이미지, 비디오, 3D 기하학을 활용한 고급 다중 모달 추론 능력을 보여줘요.