플라톤의 표현 가설은 텍스트와 이미지 등 다양한 모달리티로 학습된 신경망이 현실의 동일한 표현으로 정렬되고 수렴한다고 주장해요. 연구 결과, 현재까지의 실험적 증거는 취약하며, 평가 방식에 따라 크게 달라지며, 데이터 규모가 커질수록 정렬은 현저히 감소했어요. 새로운 모델에서는 언어 모델과 시각 모델 간의 정렬 강화 추세가 나타나지 않으며, 서로 다른 모달리티로 학습된 모델은 세상의 풍부한 표현을 학습하지만, 동일한 표현은 아닐 수 있어요.