연구진은 EU eTranslation 서비스를 통해 영어로 번역된 28개 언어, 2,800개 이상의 정치 정당 플랫폼으로 구성된 정치 선언문 코퍼스를 활용하여 기계 번역 시 단락 임베딩 간 코사인 유사성이 얼마나 불변하는지 조사했어요.
원어 텍스트에 대한 모델 간의 불일치를 교정된 불변성 기준으로 삼아 임베딩 모델 선택에 따른 번역 유도 의미 변화를 직접 측정하는 대신, 쌍별 유사성 관계의 안정성을 측정했어요.
이 프레임워크는 코퍼스 및 파이프라인에 구애받지 않으며, 번역이 의미 구조를 보존하는 언어와 손상시키는 언어를 구별할 수 있어요.