연구진은 LLM의 텍스트 생성 과정에서 어휘 다양성이 제한되는 현상을 분석하고, Word Coverage Score (WCS)라는 새로운 지표를 제시했습니다.
WCS는 표준 샘플링 필터가 문맥에 적합한 인간의 어휘를 얼마나 효과적으로 제거하는지 측정하며, 이는 기존 연구에서 간과된 부분입니다.
연구 결과, 현재 LLM의 샘플링 기본 설정은 인간의 고유한 표현을 획일화하는 ‘검열’ 역할을 하는 것으로 나타났으며, WCS는 텍스트 일관성과 어휘 풍부함 사이의 균형을 맞추는 데 도움을 줄 수 있습니다.