연구진은 CLIP과 같은 비전-언어 임베딩 모델이 개별 개념은 인식하지만, 어떤 개념이 어떤 객체를 구성하는지 파악하는 데 어려움을 겪는다는 것을 밝혀냈습니다. 장면 임베딩은 객체 표현으로 가산적으로 분해되지만, CLIP의 장면 임베딩 함수는 복잡하여 공유된 연결 메커니즘 학습을 방해합니다.
새로운 트랜스포머 모델은 충분한 데이터로 학습 시 낮은 복잡도의 연결 함수를 통해 개념 간의 곱셈적 상호작용을 학습하고, 보지 못한 개념 조합으로의 체계적인 일반화를 가능하게 합니다.
연구 결과는 임베딩 모델의 복잡도와 일반화 능력 간의 관계를 보여주며, 향후 모델 설계에 중요한 시사점을 제공합니다. 코드 공개는 GitHub에서 확인할 수 있습니다.