연구진이 200억 파라미터 규모의 MRT 모델을 공개했어요. 이 모델은 다층 투명 이미지 생성 및 편집에 특화됐으며, 1천만 개 이상의 다국어 디자인 샘플로 학습됐어요.
MRT는 텍스트-레이어, 이미지-레이어, 레이어-레이어 세 가지 작업을 통합하는 마스크 영역 확산 프레임워크를 사용하며, 선택적 토큰 마스크를 통해 유연한 레이어별 생성 및 편집을 지원해요.
MRT는 기존 방식 대비 이미지-레이어 품질에서 우수한 성능을 보이며, Qwen-Image-Layered 모델보다 사용자 평가에서 더 높은 점수를 받았고, 추론 속도는 10~100배 빠르며 GPU 메모리 사용량도 50~90% 줄였어요.