연구진이 테스트 시간 훈련(TTT)을 활용해 Vision Transformer을 선형화하는 새로운 방법론을 제시했어요. 기존 Transformer 모델의 가중치를 그대로 활용하면서도, 구조적·표현적 정렬을 통해 성능 저하 없이 추론 속도를 향상시켰어요. Stable Diffusion 3.5를 TTT 방식으로 변환한 SD3.5-T^5는 기존 모델과 유사한 화질을 유지하면서도 추론 속도가 1.32배~1.47배 빨라졌어요.
TTT는 Softmax attention과 구조적으로 정렬되어 있어, 기존 Transformer 모델의 가중치를 직접 상속받아 사용할 수 있다는 장점이 있어요. 연구진은 키 인스턴스 정규화와 경량화된 지역성 강화 모듈을 도입하여 표현적 특성까지 정렬했어요.
SD3.5-T^5는 4개의 H20 GPU에서 1시간 동안만 미세 조정으로도 기존 Softmax 모델과 유사한 텍스트-이미지 품질을 달성했어요. GitHub에서 관련 코드를 확인할 수 있어요.