연구진은 모델과 모달리티 간의 학습된 표현의 구조적 유사성을 분석하는 통일 프레임워크를 제안했어요.
Alignment 목표 간의 가정은 실제로는 틀린다는 점을 밝혀냈고, 이를 측정하기 위한 새로운 벤치마크 InterVenchA를 도입했어요.
Coupled Sparse Autoencoder(CoSAE)를 통해 보조적인 alignment 목표를 공동으로 강제했을 때 강력한 alignment가 나타났으며, 0.1%의 paired 데이터만으로도 instance-level alignment 복구가 가능했어요.