연구진은 텍스트 임베딩의 강건성이 단일 지표로 표현될 수 없으며, 다양한 변형에 대한 모델의 반응을 동적으로 평가해야 한다고 주장합니다. 이를 위해 LLM을 활용하여 입력 텍스트를 변형하는 새로운 평가 프레임워크 HTEB를 공개했어요.
HTEB는 어휘/스타일, 길이, 언어 세 가지 축으로 모델의 강건성을 평가하며, 16개의 오픈 웨이트 임베딩 모델을 42개 언어 데이터셋에서 테스트한 결과, 모델별 강건성 프로필이 다르다는 점을 확인했습니다.
영어 데이터셋이 다국어 데이터셋보다 HTEB 변환에 더 민감하게 반응하며, 모델 규모가 커질수록 언어 축에서의 성능 향상이 두드러지는 것으로 나타났습니다.