연구진은 문서 전체가 아닌 세그먼트(텍스트의 짧고 응집력 있는 구간)에 주제를 할당하는 SBTA(Segment-Based Topic Allocation)라는 새로운 방법론을 제시했어요.
SBTA는 여러 주제를 담고 있는 문서의 주제 오염 문제를 해결하고, 더 깨끗하고 해석 가능한 주제를 도출하는 데 기여해요.
SemEval-STM 데이터셋을 구축하여 SBTA의 성능을 평가했으며, 여러 모델과 지표에서 클러스터링 품질과 해석 가능성을 향상시키는 것을 확인했어요.