SenseNova-U1은 SD나 FLUX 작업 시 VAE로 인한 디테일 손실 및 텍스트 흐림 문제를 해결하기 위해 VAE와 비주얼 인코더를 완전히 제거한 모델입니다.
SenseTime에서 발표한 기술 보고서에 따르면, 이 모델은 2계층 컨브(32배 압축)을 사용하여 이미지를 인코딩하고 MLP 헤드를 통해 픽셀을 직접 예측하며, Dynamic Noise Scale(DNS)을 활용합니다.
8B-MoT 및 A3B-MoT(30B 총 파라미터, 3B 활성) 변형 모델을 제공하며, 픽셀 단위의 네이티브 통합이 32배 압축에서도 디테일을 복원할 수 있음을 입증했습니다.