Tuna-2는 시각적 이해와 생성을 픽셀 임베딩을 기반으로 직접 수행하는 새로운 통합 다중 모드 모델이에요. Tuna-2는 단순한 패치 임베딩 레이어를 사용하여 시각적 입력을 인코딩하여 기존의 복잡한 비전 인코더 설계를 완전히 배제했어요. 실험 결과, Tuna-2는 다중 모드 벤치마크에서 최고 성능을 달성하며 픽셀 공간 모델링이 고품질 이미지 생성을 위한 잠재 공간 접근 방식과 경쟁할 수 있음을 입증했어요.