Pulse · AI 뉴스

텍스트-이미지 모델, 텍스트 인코더의 복잡한 정보보다 적게 활용한다

OpenAI · 2026-06-02

연구 결과, 텍스트-이미지 모델은 텍스트 인코더가 제공하는 풍부한 정보를 대부분 활용하지 않는 것으로 나타났어요.

모델은 인접 토큰 병합과 단어 순서 정보만으로도 이미지 생성에 충분하며, 기존 방식과 유사한 결과물을 보여요.

이는 텍스트-이미지 모델이 복잡한 언어 구조를 텍스트 인코더가 아닌 스스로 디코딩한다는 것을 의미하며, 텍스트 인코더의 역할이 과대평가되었을 가능성을 시사해요.

연구팀은 단어 의미와 순서만 담고 문맥 정보는 제거한 새로운 텍스트 임베딩을 구축하여 실험했어요.

##텍스트이미지##이미지생성##AI연구##Diffusion
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기