Pulse · AI 뉴스

통일된 다중 모드 모델을 위한 의미 기반 생성 튜닝

SGT · 2026-05-18

연구진은 시각 이해와 생성 능력을 통합하는 통일된 다중 모드 모델(UMM)의 학습 방식에 주목했어요. 기존 방식은 시각 이해와 생성 능력을 분리하여 학습하기 때문에 두 능력이 서로 영향을 주지 못하는 한계가 있었어요.

이미지 분할과 같은 고수준의 의미 기반 시각 작업이 UMM의 시각 이해와 생성 능력을 향상시키는 데 효과적인 생성적 프록시 역할을 한다는 것을 발견했어요. 이미지 분할은 모델이 불필요한 텍스처 디테일에 집중하는 것을 막고 구조적 의미를 제공해요.

연구진은 이러한 점을 바탕으로 이미지 분할을 활용하여 다중 모드 모델의 시각 이해와 생성 능력을 조율하는 새로운 학습 패러다임인 Semantic Generative Tuning (SGT)을 제안했으며, 다양한 벤치마크에서 성능 향상을 입증했어요.

##UMM##다중모드##이미지분할##SGT##생성튜닝

매일 핵심 AI 소식을 한국어로, 빠르게