Pulse · AI 뉴스

1000층 디퓨전 트랜스포머의 평균-분산 분할 잔차: 평균 모드 스크리밍

Diffusion Transformers · 2026-05-07

연구진은 1000층 디퓨전 트랜스포머(DiT)에서 발생하는 '평균 모드 스크리밍(MMS)' 현상을 분석하고, 이로 인한 네트워크 붕괴를 막기 위한 '평균-분산 분할 잔차(MV-Split)' 기법을 제안했습니다.

MMS는 훈련이 안정적으로 보이는 상황에서도 발생하며, 깊은 잔차 브랜치를 열어 네트워크를 평균 지향적인 상태로 몰아넣는 원인이 됩니다.

MV-Split 기법은 400층 DiT에서 붕괴를 막고, 1000층 DiT를 안정적으로 훈련시키는 데 기여했습니다.

##디퓨전트랜스포머##딥러닝##안정화##MV-Split
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기