연구진은 Softmax 어텐션의 병목 현상을 해결하기 위한 선형 복잡도 어텐션 모델 학습 비용 문제를 해결하고자 합니다.
Test-Time Training(TTT) 아키텍처의 동적 형식이 Softmax 어텐션과 구조적으로 일치함을 확인하고, 사전 학습된 어텐션 가중치를 직접 상속하는 방법을 제시했습니다.
SD3.5-T$^5$ 모델은 4시간의 파인튜닝만으로 Softmax 모델과 유사한 텍스트-이미지 품질을 달성하며, 추론 속도를 1.32배~1.47배 향상시켰습니다.