Pulse · AI 뉴스

Tuna-2: 픽셀 임베딩이 비전 인코더를 능가하여 다중 모드 이해 및 생성

Tuna-2 · 2026-04-28

Tuna-2는 시각적 이해와 생성을 픽셀 임베딩을 기반으로 직접 수행하는 새로운 통합 다중 모드 모델이에요.

Tuna-2는 단순한 패치 임베딩 레이어를 사용하여 시각적 입력을 인코딩하여 기존의 복잡한 비전 인코더 설계를 완전히 배제했어요.

실험 결과, Tuna-2는 다중 모드 벤치마크에서 최고 성능을 달성하며 픽셀 공간 모델링이 고품질 이미지 생성을 위한 잠재 공간 접근 방식과 경쟁할 수 있음을 입증했어요.

##모델출시##비전##다중모드

매일 핵심 AI 소식을 한국어로, 빠르게