Pulse · AI 뉴스

MMDiff: 다중 모드 생성을 위한 확산 트랜스포머 확장

MMDiff · 2026-06-15

연구진이 확산 트랜스포머의 잠재력을 활용해 이미지와 함께 다양한 시각적 정보를 생성하는 MMDiff 프레임워크를 공개했어요. MMDiff는 기존 확산 트랜스포머를 수정하지 않고도 다중 모드 생성을 가능하게 해요. 시각적 정보가 노이즈 제거 과정에 분산되어 있다는 점을 발견하고, 이를 활용해 의미론적 분할 정확도를 28.7% 향상시켰어요.

MMDiff는 기존 DINOv3와 같은 인코더와 경쟁력 있는 성능을 보이며 상호 보완적인 효과를 보여줘요. 가벼운 디코더 헤드를 학습시켜 의미론적 분할, 중요한 객체 감지, 깊이 추정 등 다양한 작업에서 뛰어난 성능을 달성했어요.

MMDiff는 기존 모델을 동결하고 가벼운 디코더 헤드만 학습시켜 대규모 합성 데이터 생성에 효과적이며, 기존 확산 트랜스포머의 활용도를 높일 수 있어요.

##확산모델##다중모드##이미생성##MMDiff##트랜스포머
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기