연구진은 CLIP과 같은 비전-언어 임베딩 모델이 개별 개념은 인식하지만, 어떤 개념이 어떤 객체를 구성하는지 연결하는 데 어려움을 겪는다는 것을 밝혀냈어요.
장면 임베딩은 객체 표현으로 가산적으로 분해되지만, CLIP의 연결 함수는 복잡하여 공유된 연결 메커니즘 학습을 방해하는 것으로 나타났어요.
새로운 트랜스포머 모델 학습 결과, 충분한 데이터로 저복잡도 연결 함수가 나타나 개념 간의 곱셈적 상호작용을 통해 체계적인 일반화가 가능함을 확인했어요.