Pulse · AI 뉴스

맥락적 임베딩에서 문법적 성별 방향 추정: 통제 및 자연 맥락 환경에서

arXiv cs.CL · 2026-06-29

연구진은 스페인어와 같은 성별 언어에서 문법적 성별과 사회적 의미 편향을 분리하기 위해 맥락적 임베딩을 분석하는 새로운 프레임워크를 개발했어요. 통제된 템플릿과 자연스러운 위키백과 맥락을 활용해 문법적 성별과 의미 오염을 분리하는 균형 잡힌 데이터셋을 구축했어요. SVM과 LDA 기반 추정기, 오염 인지 가중치 전략을 활용해 문법적 성별 누출을 억제하면서 직업 관련 용어의 의미적 성별 구분을 유지하는 평가 지표를 제안했어요.

연구 결과, 가중치 없는 통제된 맥락이 가장 순수한 문법적 성별 방향을 제공하며, 중심점 추정기가 판별 기준보다 더 나은 성능을 보였어요. 이 연구는 기존의 정적 단어 임베딩 기반의 성별 편향 해소 방식의 한계를 극복하고, 맥락적 임베딩의 성별 분리 가능성을 제시했어요.

향후 연구는 이 프레임워크를 다양한 성별 언어에 적용하고, 더 정교한 오염 인지 가중치 전략을 개발하여 맥락적 임베딩의 성별 공정성을 더욱 향상시키는 데 기여할 것으로 기대돼요.

##언어모델##성별편향##임베딩##스페인어##NLP

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기