연구진은 인종 데이터 수집의 어려움을 해결하기 위해 BISG(Bayesian Improved Surname Geocoding)를 활용했지만, 흔하지 않은 성씨의 경우 예측 정확도가 떨어지는 문제를 확인했어요.
새로운 방법인 eBISG(embedding-powered BISG)는 사전 학습된 텍스트 임베딩을 사용하여 이름의 벡터 표현을 만들고, 훈련된 신경망을 통해 Census에 없는 이름에 대한 인종 확률을 추정해요.
연구 결과, 성씨와 이름 임베딩을 결합한 eBISG 방식이 기존 방식보다 예측 정확도를 높였으며, 특히 Census 목록에 없는 성씨를 가진 히스패닉 및 아시아계 유권자 예측에 큰 효과를 보였어요.