연구 결과, 텍스트-이미지 모델은 텍스트 인코더가 제공하는 풍부한 정보를 대부분 활용하지 않는 것으로 나타났어요.
모델은 인접 토큰 병합과 단어 순서 정보만으로도 이미지 생성에 충분하며, 기존 방식과 유사한 결과물을 보여요.
이는 텍스트-이미지 모델이 복잡한 언어 구조를 텍스트 인코더가 아닌 스스로 디코딩한다는 것을 의미하며, 텍스트 인코더의 역할이 과대평가되었을 가능성을 시사해요.
연구팀은 단어 의미와 순서만 담고 문맥 정보는 제거한 새로운 텍스트 임베딩을 구축하여 실험했어요.