연구진은 대규모 언어 모델이 다양한 특징 공간에서 수치 표 데이터를 의미 있게 표현하는 데 어려움을 겪는다는 점에 주목했어요.
제안된 방법론은 탐색적 데이터 분석 기술을 활용해 수치 표 데이터를 특성화하고, 사전 훈련된 문장 변환기를 사용하여 공유 벡터 공간에 임베딩하며, Canonical Correlation Analysis (CCA)를 통해 데이터 간의 유사성을 정량화해요.
연구 결과, 15개 데이터 세트에서 P@1 점수가 0.9로 높게 나타났으며, 임베딩 제거 및 차등 개인 정보 보호 예산에서도 클러스터 구조가 견고함을 확인했어요.