연구진은 LLM 기반 텍스트 임베딩이 빈번한 토큰에 과도하게 의존해 의미적 표현 능력이 저하된다는 점을 발견했어요. EmbedFilter라는 선형 변환을 통해 LLM에서 추출된 텍스트 임베딩을 개선하고, 빈번한 토큰의 영향을 줄여 의미 표현을 강화했어요. EmbedFilter는 LLM의 unembedding 행렬에서 빈번한 토큰을 임베딩 공간에 쓰기하는 잠재 공간을 필터링하며, 임베딩 차원 축소와 성능 향상을 동시에 달성했어요.